Detección automática de idiomas en textos cortos: ¿vale la pena entrenar un modelo de lenguaje?

Autores

DOI:

https://doi.org/10.22477/xiv.biredial.412

Palavras-chave:

Repositorios Institucionales, tareas de curaduría de datos, herramientas de detección de idiomas, mBERT, SBERT, XLM-RoBERTa, enfoque zero-shot, entrenamiento de modelos

Resumo

Presentación del problema: Este artículo busca continuar y optimizar las tareas de detección de automática de idioma llevadas a cabo previamente en el repositorio institucional SEDICI. Se procura facilitar la catalogación de materiales ante el enorme volumen de recursos almacenados actualmente. Materiales y metodología: A partir de un dataset exportado del repositorio de unos 126.081 ítems se planificó una tarea de detección automática de idiomas utilizando diferentes bibliotecas existentes con el enfoque zero-shot (LangDetect, Polyglot y Langid). Previamente se llevaron a cabo varias tareas de limpieza de texto y preprocesamiento que buscaron mejorar el desempeño de las bibliotecas respecto de tareas anteriores. Luego se compararon los resultados obtenidos con los datos de los idiomas registrados por el personal de catalogación del repositorio y se corroboró la exactitud de uno y otro grupo. Para tratar de mejorar aún más la detección de idiomas se entrenó y analizó el desempeño de la biblioteca Fasttext y varios modelos (mBERT, SBERT y XLM-RoBERTa). Resultados: En general, todas las bibliotecas de detección de idiomas mostraron un alto nivel de precisión en la detección de idiomas, alrededor de un 98%. En el caso de los modelos entrenados también se obtuvieron muy buenos resultados, con valores de alrededor de 100% de f1 score. Las diferentes tareas llevadas a cabo también permitieron identificar y tipificar algunos errores recurrentes en los que suelen incurrir los catalogadores humanos así como realizar una corrección en lote de los metadatos erróneos.

Downloads

Publicado

2025-12-15

Como Citar

Nusch, C. J., Cagnina, L. C., Lira, A. J., Villarreal, G., Antonelli, L., Errecalde, M. L., De Giusti, M. R., & Tettamanti, S. (2025). Detección automática de idiomas en textos cortos: ¿vale la pena entrenar un modelo de lenguaje?. Conferência Internacional BIREDIAL-ISTEC. https://doi.org/10.22477/xiv.biredial.412

Edição

Seção

Eje temático 4: Infraestructura tecnológica

Categorias