Índices Invertidos en Diferentes modelos
Índices Invertidos en el Modelo Booleano
Es
especialmente beneficioso para este modelo que las listas de documentos
para cada término (posteo) se almacenen en orden creciente. Para
resolver una consulta, el primer paso es buscar los términos dentro del
vocabulario y luego recuperar los documentos asociados a estos dentro
de las listas de posteo. Seguidamente se realizan las operaciones de
conjuntos entre las listas y como se encuentran ordenadas, es posible
operarlas recorriéndolas de manera secuencial. En consecuencia los
documentos son retornados en su orden creciente. Durante la aplicación
de las operaciones sobre los conjuntos de documentos, si una lista es
muy corta y la otra es mucho más larga, se recomienda utilizar búsqueda
binaria entre estas [1]. En la siguiente figura se muestra una
representación de las listas de documentos dentro del procesamiento del
modelo booleano:
Listas de documentos en modelo booleano. Tomado de [1].
Un ejemplo a nivel general de la aplicación de índices invertidos en el modelo booleano es el siguiente [4]:
Se tienen los documentos: T0 = "it is what it is", T1 = "what is it" and T2 = "it is a banana". Esto da como resultado el índice invertido:
"a": {2}
"banana": {2}
"is": {0, 1, 2}
"it": {0, 1, 2}
"what": {0, 1}
Para resolver la consulta what and i and it se realiza la siguiente operación con las listas de documentos
Retornando de esta manera los documentos 0 y 1.
Índices Invertidos en el modelo vectorial
Para el modelo vectorial es recomendado que el índice también almacene [1]:
- La frecuencia normalizada dentro de la lista de posteo.
- El idf y la máxima frecuencia de cada término en el vocabulario.
- La lista de posteo este ordenada en orden decreciente de frecuencia normalizada.
La
idea con el modelo vectorial es utilizar los datos almacenados en el
índice para calcular la similitud entre la consulta realizada y los
documentos almacenados en posteo. Cómo la lista de documentos se
encuentra ordenada por frecuencia del término, es posible en algunos
cosos es posible obviar documentos que probablemente no sean muy
relevantes y no afecten el ranking.
Esto último es especialmente
importante en las búsquedas web, ya que la mayoría de motores de
búsqueda tienen más interés en recuperar los documentos más relevantes
(precisión) que en retornar absolutamente todos los documentos
relevantes. En la siguiente imagen se muestra representada esta
idea:
Posteo de modelo vectorial .Tomada de [1]