Recuperación de Información. Indexación semántica de textos usando WORDNET

Enunciado

La práctica propuesta consistirá en la construcción de un módulo de indexación que trabajará sobre un indexador convencional y que realizará la indexación de documentos en base a los symsets de WORDNETen lugar de formas. Será necesario un paso previo que filtre las palabras más frecuentes y transforme las palabras resultantes a sus correspondientes números de symset.

NOTA: Sólo esta disponible la versión en inglés de WORDNET.

Como segunda parte del trabajo se estudirán  las posibilidades de otras relaciones de WORDNET de cara  su aplicación en sistemas de recuperación de información.

También será necesario un pequeño módulo de consulta que genere consultas apropiadas para ese índice.

Documentación y herramientas a emplear.

Pagina de los desarrolladores de swhish-e (con manuales y enlaces al código fuente)  Información sobre WORDNET  Binarios y código fuente Lista de stop words en inglés. Corpus para pruebas (incluye consultas y respuestas a consultas)