Aprendizaje supervisado en espacio semánticos

Objetivo

Analizar las capacidades de los espacios semánticos en términos de rendimiento, independencia de lenguaje y su capacidad para transferir conocimiento en el dominio de categorización de texto.

Resumen

El proyecto se centra en el problema de categorización de texto, visto como un problema de aprendizaje supervisado. Es decir, se tiene una colección de textos y asociado a cada texto se tiene una etiqueta. La idea es encontrar una función que aprenda esta relación y tenga la capacidad de predecir la etiqueta de un nuevo texto.

En este proyecto se investigan diferentes modelos de texto, por ejemplo, el tradicional que corresponde a una bolsa de palabras, espacios semánticos como podría ser el producido por FastText o nuestro desarrollo Emoji Space. Con el objetivo de encontrar aquellos modelos que mejor aprenden, puedan ser aplicados a varios dominios y varios lenguajes sin modificación. Además, se estudiarán modelos que permitan transferir el conocimiento entre diferentes lenguajes.