Impacto negativo de bots en estadísticas de uso de repositorios digitales: análisis de un caso y estrategia aplicada
DOI:
https://doi.org/10.22477/xiv.biredial.410Keywords:
robots, aprendizaje automático, repositorios, estadísticas de usoAbstract
La detección de bots en servicios web es una necesidad presente desde la masificación de internet. Estos agentes recorren la información disponible en la web para diversos fines como ser desarrollo de motores de búsqueda, análisis SEO o, recientemente, para entrenamiento de modelos de inteligencia artificial. Los repositorios son particularmente interesantes para estos agentes, gracias a que ofrecen información de calidad, controlada y descrita por metadatos curados. Independientemente de su objetivo, el repositorio es continuamente cosechado por múltiples bots, lo que produce caídas ocasionales y alteraciones en los registros de uso utilizados para la generación de reportes estadísticos, que sirven para medir el impacto real de las obras preservadas y publicadas.
En este trabajo se presenta la experiencia del repositorio SEDICI en el análisis y depuración de registros recolectados durante 13 años. La detección se realiza mediante el análisis del comportamiento de los bots, como uso excesivo, patrones de uso anómalos, escaneos y ataques. Luego, se utiliza un modelo de IA para marcar bots con comportamiento poco evidente no identificados como tales. Aplicada esta estrategia, se logró eliminar más de 50 millones de registros de uso provenientes de bots atípicos que acceden de forma sistemática y recurrente al repositorio.
Downloads
Published
How to Cite
Issue
Section
Categories
License
Copyright (c) 2025 Rafael Bertoli, Ariel Jorge Lira

This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
