Impacto negativo de bots en estadísticas de uso de repositorios digitales: análisis de un caso y estrategia aplicada
DOI:
https://doi.org/10.22477/xiv.biredial.410Palabras clave:
robots, aprendizaje automático, repositorios, estadísticas de usoResumen
La detección de bots en servicios web es una necesidad presente desde la masificación de internet. Estos agentes recorren la información disponible en la web para diversos fines como ser desarrollo de motores de búsqueda, análisis SEO o, recientemente, para entrenamiento de modelos de inteligencia artificial. Los repositorios son particularmente interesantes para estos agentes, gracias a que ofrecen información de calidad, controlada y descrita por metadatos curados. Independientemente de su objetivo, el repositorio es continuamente cosechado por múltiples bots, lo que produce caídas ocasionales y alteraciones en los registros de uso utilizados para la generación de reportes estadísticos, que sirven para medir el impacto real de las obras preservadas y publicadas.
En este trabajo se presenta la experiencia del repositorio SEDICI en el análisis y depuración de registros recolectados durante 13 años. La detección se realiza mediante el análisis del comportamiento de los bots, como uso excesivo, patrones de uso anómalos, escaneos y ataques. Luego, se utiliza un modelo de IA para marcar bots con comportamiento poco evidente no identificados como tales. Aplicada esta estrategia, se logró eliminar más de 50 millones de registros de uso provenientes de bots atípicos que acceden de forma sistemática y recurrente al repositorio.
Descargas
Publicado
Cómo citar
Memoria
Sección
Categorías
Licencia
Derechos de autor 2025 Rafael Bertoli, Ariel Jorge Lira

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.
