Recuperación de Información en la Web: Indización por Semántica Latente en Google.

Mi cuñado Mariano me manda un mail con una noticia aparecida en la web de Axandra sobre el posible uso de la Indización por Semántica Latente (LSI) por parte de Google tras su última revisión. Más concretamente, los autores dicen que el motor está confiriendo más peso a esta técnica avanzada de recuperación de información (viene a ser una alternativa al clásico Modelo Vectorial), que a otros factores más tradicionales.

Poco se ha escrito en Español sobre esta técnica, la mayor parte de los trabajos que conozco se han desarrollado en mi Facultad y no están publicados (proyectos fin de carrera básicamente); sí recuerdo haber leido un trabajo dedicado a la LSI y a recuperación de documentos en un reciente boletín de la SEPLN, cuya autora era una profesora de la Universidad de Páis Vasco. Si bien en nuestro idioma no se ha escrito mucho aún sobre este tema, no es menos cierto que se viene trabajando en el mismo desde hace bastante tiempo y que se viene aplicando a diversas actividades todas ellas relacionadas con la necesidad de extraer conocimiento un conocimiento implícito más allá del mero conocimiento explicitado por las palabras contenidas en un documento. Así, además de recuperar información suplementaria, sirve, entre otras cosas para asignar los evaluadores más adecuados de una revista científica según la temática del nuevo artículo recibido y su especialidad.

En el caso concreto de la RI, en la propia noticia de Axandra nos ponen un ejemplo muy sencillo, las palabras Paris y Hilton se encuentran muy vinculadas a una joven señorita que se ha hecho famosa por grabar un vídeo amateur en una habitación de un hotel que lo más seguro no estará en la ciudad del amor ni tiene por qué ser de la cadena familiar. La asociación de ideas es lo que se denomina "semántica latente". En la práctica nos proponen dos búsquedas, una textual y otra por semántica latente´. Si introducimos la palabra phone nos salen en primer lugar varias sedes de directorios de números de teléfono, si en cambio introducimos la ecuación ~phone, el motor devuelve diferente conjunto de resultados, comenzando por la web de Nokia (líder del mercado de teléfonos móviles).

Lo importante no es la diferencia de resultados sino más bien el hecho de que cada vez está más claro que Google intenta proveer resultados infiriendo la relación con la pregunta sin necesidad de la presencia de los términos de la ecuación de búsqueda en la página devuelta, es decir, que se aleja de la premisa del 'exact match' estrechamente vinculada a los operadores booleanos, los cuales cada vez parecen tenerlo más crudo en el mundo de la web.

3 Comments:

Alvaro said...: Me interesa mucho esa parte de "asignar evaluadores". Cuenta, cuenta, que me interesa muchísimo.; 2:50 PM
javima said...: Si no recuerdo mal se analiza el texto del artículo remitido para evaluación por la revista científica, y se compara ese contenido con el de otros artículos depositados en una base de datos buscando una afinidad, con el objeto de que los autores de los artículos afines sean los evaluadores de la pertinencia o no pertinencia de la nueva publicación. Se trata de buscar una cercanía entre autores y evaluadores. Intento localizar el trabajo donde lo vi y publico la dirección.; 6:22 PM
Alvaro said...: Si, por favor, busca, busca. Con lo que dices ya me hago una idea de por dónde van los tiros, pero busca, busca.; 1:21 PM

<< Home

Recuperación de Información en la Web

domingo, febrero 20, 2005

Indización por Semántica Latente en Google.

3 Comments:

Previous Posts

About Me