Cerrar
CONACYT

Desde Infotec

An automated text categorization framework based on hyperparameter optimization

Por: Eric S. Téllez, Daniela Moctezuma, Sabino Miranda-Jiménez, Mario Graff

Abril de 2017

 

La cantidad de información textual generada en los medios digitales de comunicación (blogs, periódicos en línea, etc.), han llamado la atención de la comunidad científica para automatizar y mejorar algunas tareas que se realizan manualmente, como el análisis de emociones (sentimientos), el perfilado de los usuarios o la categorización del texto, por mencionar sólo algunas. La mayoría de estas tareas pueden plantearse como un problema de clasificación, es decir, un problema en el que se desarrolla una función, a partir de un conjunto de textos con etiquetas asociadas, capaz de predecir la etiqueta relacionada a un texto nuevo.

El artículo “An Automated Text Categorization Framework based on Hyperparameter Optimization” (“Un marco de trabajo automatizado para la categorización de texto basado en optimización de hiperparámetros”) de Eric S. Téllez, Sabino Miranda-Jiménez, Mario Graff, investigadores de Infotec, y de Daniela Moctezuma, investigadora del CentroGEO, todos ellos Cátedras Conacyt, propone un clasificador de texto denominado Micro Text Classification (µTC).

El artículo proporciona una descripción detallada del clasificador µTC así como una extensa comparación experimental contra los métodos actuales y relevantes del estado del arte. De manera más precisa, µTC fue comparado con 30 diferentes conjuntos de datos y obtuvo el mejor rendimiento (con respecto a la medida de exactitud) en 17 de ellos, y alcanzó resultados competitivos en el resto de los conjuntos. Los conjuntos de datos abordan problemas de identificación de tópicos, temas y polaridades, detección de spam, perfilado de usuario y atribución de autoría.

En general, µTC ha sido diseñado para permitir que, tanto los tecnólogos como los investigadores, usen esta tecnología sin la necesidad de poseer conocimientos avanzados de aprendizaje computacional y/o procesamiento de lenguaje natural.

Datos de contacto

Área de Comunicación Social - Tel: 5624 2800 ext. 2503 - infotecomunica@infotec.mx