Impacto negativo de bots en estadísticas de uso de repositorios digitales: análisis de un caso y estrategia aplicada

Autores/as

DOI:

https://doi.org/10.22477/xiv.biredial.410

Palabras clave:

robots, aprendizaje automático, repositorios, estadísticas de uso

Resumen

La detección de bots en servicios web es una necesidad presente desde la masificación de internet. Estos agentes recorren la información disponible en la web para diversos fines como ser desarrollo de motores de búsqueda, análisis SEO o, recientemente, para entrenamiento de modelos de inteligencia artificial. Los repositorios son particularmente interesantes para estos agentes, gracias a que ofrecen información de calidad, controlada y descrita por metadatos curados. Independientemente de su objetivo, el repositorio es continuamente cosechado por múltiples bots, lo que produce caídas ocasionales y alteraciones en los registros de uso utilizados para la generación de reportes estadísticos, que sirven para medir el impacto real de las obras preservadas y publicadas. 

En este trabajo se presenta la experiencia del repositorio  SEDICI en el análisis y depuración de registros recolectados durante 13 años. La detección se realiza mediante el análisis del comportamiento de los bots, como uso excesivo, patrones de uso anómalos, escaneos y ataques. Luego, se utiliza un modelo de IA para marcar bots con comportamiento poco evidente no identificados como tales. Aplicada esta estrategia, se logró eliminar más de 50 millones de registros de uso provenientes de bots atípicos que acceden de forma sistemática y recurrente al repositorio.

Biografía del autor/a

Ariel Jorge Lira, Universidad Nacional de La Plata

Ariel Lira es Licenciado en Informático por la Universidad Nacional de La Plata, desde 2006 forma parte del equipo de PREBI-SEDICI. Se especializa en repositorios digitales de publicaciones y datos, ciencia abierta y preservación digital. Participa en el desarrollo de herramientas y servicios para la gestión y difusión de la producción académica. Su trabajo contribuye a fortalecer el ecosistema de comunicación científica en acceso abierto.

Publicado

2025-12-15

Cómo citar

Bertoli, R., & Lira, A. J. (2025). Impacto negativo de bots en estadísticas de uso de repositorios digitales: análisis de un caso y estrategia aplicada. Conferencia Internacional BIREDIAL-ISTEC. https://doi.org/10.22477/xiv.biredial.410

Memoria

Sección

Eje temático 3: Evaluación y métricas alternativas

Categorías