Indización por Semántica Latente en Google.
Mi cuñado Mariano me manda un mail con una noticia aparecida en la web de Axandra sobre el posible uso de la Indización por Semántica Latente (LSI) por parte de Google
tras su última revisión. Más concretamente, los autores dicen que el
motor está confiriendo más peso a esta técnica avanzada de recuperación
de información (viene a ser una alternativa al clásico Modelo
Vectorial), que a otros factores más tradicionales.
Poco se ha
escrito en Español sobre esta técnica, la mayor parte de los trabajos
que conozco se han desarrollado en mi Facultad y no están publicados
(proyectos fin de carrera básicamente); sí recuerdo haber leido un
trabajo dedicado a la LSI y a recuperación de documentos en un reciente
boletín de la SEPLN, cuya autora era una profesora de la Universidad de Páis Vasco.
Si bien en nuestro idioma no se ha escrito mucho aún sobre este tema,
no es menos cierto que se viene trabajando en el mismo desde hace
bastante tiempo y que se viene aplicando a diversas actividades todas
ellas relacionadas con la necesidad de extraer conocimiento un
conocimiento implícito más allá del mero conocimiento explicitado por
las palabras contenidas en un documento. Así, además de recuperar
información suplementaria, sirve, entre otras cosas para asignar los
evaluadores más adecuados de una revista científica según la temática
del nuevo artículo recibido y su especialidad.
En el caso concreto de la RI, en la propia noticia de Axandra nos ponen un ejemplo muy sencillo, las palabras Paris y Hilton
se encuentran muy vinculadas a una joven señorita que se ha hecho
famosa por grabar un vídeo amateur en una habitación de un hotel que lo
más seguro no estará en la ciudad del amor ni tiene por qué ser de la
cadena familiar. La asociación de ideas es lo que se denomina
"semántica latente". En la práctica nos proponen dos búsquedas, una
textual y otra por semántica latente´. Si introducimos la palabra phone nos salen en primer lugar varias sedes de directorios de números de teléfono, si en cambio introducimos la ecuación ~phone, el motor devuelve diferente conjunto de resultados, comenzando por la web de Nokia (líder del mercado de teléfonos móviles).
Lo importante no es la diferencia de resultados sino más bien el hecho de que cada vez está más claro que Google
intenta proveer resultados infiriendo la relación con la pregunta sin
necesidad de la presencia de los términos de la ecuación de búsqueda en
la página devuelta, es decir, que se aleja de la premisa del 'exact
match' estrechamente vinculada a los operadores booleanos, los cuales
cada vez parecen tenerlo más crudo en el mundo de la web.
3 Comments:
Me interesa mucho esa parte de "asignar evaluadores". Cuenta, cuenta, que me interesa muchísimo.
Si no recuerdo mal se analiza el texto del artículo remitido para evaluación por la revista científica, y se compara ese contenido con el de otros artículos depositados en una base de datos buscando una afinidad, con el objeto de que los autores de los artículos afines sean los evaluadores de la pertinencia o no pertinencia de la nueva publicación. Se trata de buscar una cercanía entre autores y evaluadores. Intento localizar el trabajo donde lo vi y publico la dirección.
Si, por favor, busca, busca. Con lo que dices ya me hago una idea de por dónde van los tiros, pero busca, busca.
Post a Comment
<< Home