Construcción de un clasificador de textos utilizando el modelo vectorial
Enunciado
Desarrollo de un prototipo de clasificador de textos (e-mails, noticas, ...) basado en palabras clave.Se tomará como base una versión simplificada del modelo vectorial de recuperación de información.
- Cada "tema" estará descrito por un conjunto de palabras clave y tendrá asociado un vector de pesos.
- Los documentos se representarán tambien como un vector de pesos.
- Se calculará la proximidad de los dos vectores y se asignará un documento al tema más "cercano".
Como ampliación se podrá utilizar lematización para normalizar las palabras (ver practicas de indexacion de lemas).
Documentación y herramientas a emplear.
La documentación necesaria se entregará
en papel.
El lenguaje de implementación es libre.