Clasificación automática de materias en repositorios institucionales mediante aprendizaje supervisado y representaciones vectorialesmultilingües:

un estudio de caso en SEDICI

Authors

DOI:

https://doi.org/10.22477/xiv.biredial.417

Keywords:

Repositorios Institucionales, clasificación multilabel, aprendizaje automático, mapeo temático, SBERT, LaBSE, TF-IDF, curaduría de metadatos

Abstract

Presentación del problema: El presente trabajo aborda la tarea de clasificación automática por materias para los contenidos albergados en el repositorio institucional SEDICI. A partir de un corpus de 126.081 ítems se propone ahora un enfoque supervisado de clasificación multilabel que permita predecir las materias asignadas a los ítems del repositorio a partir de sus resúmenes y palabras clave. Materiales y metodología: Los ítems incluyen resúmenes textuales, palabras clave y etiquetas temáticas. Se realizó un análisis de cobertura de etiquetas para obtener un subconjunto óptimo de clases que concentren la mayor parte de los ejemplos en el corpus. Luego se aplicaron distintas técnicas de representación del texto, incluyendo vectorizaciones clásicas por n-gramas (TF-IDF y frecuencia de términos) y modelos de embeddings multilingües (SBERT y LaBSE). Sobre estas representaciones se entrenaron varios clasificadores multilabel, como regresión logística, máquinas de soporte vectorial, Random Forest, Multinomial Naive Bayes y clasificadores por descenso de gradiente. La evaluación se realizó mediante métricas específicas para clasificación multilabel, incluyendo F1-score micro y macro. Resultados: Se observó que la combinación de Frecuencia de Término - Frecuencia In versa de Documento (TF-IDF) con Máquinas de Soporte Vectorial Lineal (Linear SVC) ofreció unrendimiento destacado entre los enfoques clásicos, alcanzando los mayores valores de F1 macro y F1 micro en ambas configuraciones del conjunto de etiquetas. Los modelos basados en embeddings, especialmente LaBSE y SBERT combinados com Linear SVC, demostraron también un desempeño competitivo, superando en varios casos a los métodos clásicos, aunque a costa de mayores tiempos de entrenamiento. El Clasificador Lineal entrenado con Descenso de Gradiente Estocástico (SGD) se posicionó como una alternativa eficiente y escalable, con tiempos reducidos y métricas satisfactorias. La reducción del espacio de etiquetas de 61 a 37 materias permitió mejorar globalmente la precisión y reducir la complejidad computacional. Conclusiones: Este estudio se propuso demostrar la viabilidad de aplicar modelos supervisados para la clasificación automática de materias en grandes volúmenes de datos textuales en repositorios institucionales. La metodología propuesta es replicable y puede adaptarse a otros contextos documentales con estructuras temáticas similares, y podría contribuir a mejorar la eficiencia y calidad del proceso de curaduría de datos y materiales en repositorios institucionales.

Published

2025-12-15

How to Cite

Nusch, C. J., Cagnina, L. C., Peloche, S. B., Villarreal, G., Lira, A., Antonelli, L., Folegotto, L. E., Errecalde, M. L., & De Giusti, M. R. (2025). Clasificación automática de materias en repositorios institucionales mediante aprendizaje supervisado y representaciones vectorialesmultilingües: : un estudio de caso en SEDICI . BIREDIAL-ISTEC International Conference. https://doi.org/10.22477/xiv.biredial.417

Issue

Section

Eje temático 4: Infraestructura tecnológica

Categories