Construcción de un clasificador de textos utilizando el modelo vectorial

Enunciado

Desarrollo de un prototipo de clasificador de textos (e-mails, noticas, ...)  basado en palabras clave.
Se tomará como base una versión simplificada del modelo vectorial de recuperación de información.
  • Cada  "tema" estará descrito por un conjunto de palabras clave y tendrá asociado un vector de pesos.
  • Los documentos se representarán tambien como un vector de pesos.
  • Se calculará la proximidad de los dos vectores y se asignará un documento al tema más "cercano".
Los pesos se determinarán a partir de las frecuencias de aparición de cada palabra.

Como ampliación se podrá utilizar lematización para normalizar las palabras (ver practicas de indexacion de lemas).

Documentación y herramientas a emplear.

La documentación necesaria se entregará en papel.

El lenguaje de implementación es libre.

Corpus de documentos para probar el sistema