Construcción de un clasificador de textos utilizando el modelo vectorial

Enunciado

Desarrollo de un prototipo de clasificador de textos (e-mails, noticas, ...) basado en palabras clave.
Se tomará como base una versión simplificada del modelo vectorial de recuperación de información.

Cada "tema" estará descrito por un conjunto de palabras clave y tendrá asociado un vector de pesos.
Los documentos se representarán tambien como un vector de pesos.
Se calculará la proximidad de los dos vectores y se asignará un documento al tema más "cercano".

Los pesos se determinarán a partir de las frecuencias de aparición de cada palabra.

Como ampliación se podrá utilizar lematización para normalizar las palabras (ver practicas de indexacion de lemas).

Documentación y herramientas a emplear.

La documentación necesaria se entregará en papel.

El lenguaje de implementación es libre.

Corpus de documentos para probar el sistema



	\| Asignaturas \| \| LN \| \| LN - Prácticas \| Construcción de un clasificador de textos utilizando el modelo vectorial Enunciado Desarrollo de un prototipo de clasificador de textos (e-mails, noticas, ...) basado en palabras clave. Se tomará como base una versión simplificada del modelo vectorial de recuperación de información. Cada "tema" estará descrito por un conjunto de palabras clave y tendrá asociado un vector de pesos. Los documentos se representarán tambien como un vector de pesos. Se calculará la proximidad de los dos vectores y se asignará un documento al tema más "cercano". Los pesos se determinarán a partir de las frecuencias de aparición de cada palabra. Como ampliación se podrá utilizar lematización para normalizar las palabras (ver practicas de indexacion de lemas). Documentación y herramientas a emplear. La documentación necesaria se entregará en papel. El lenguaje de implementación es libre. Corpus de documentos para probar el sistema