Espacio extra de los Índices
En
este punto es importante tener encueta dos leyes que nos permiten tener
una idea del tamaño que puede llegar a ocupar un índice a partir del
tamaño de los textos. La primera es la ley de Heaps que dice que un texto de tamaño n crece menos de 1% de n. La segunda ley es la de Zipf que indica una pocas palabras aparecen muchas veces y muchas palabras aparecen poco. Esto es que la cantidad de stopwords
o palabras vacías es mucho mayor que la cantidad de palabras claves
[1]. En la siguiente imagen se puede observar estas leyes y su impacto
en los índices:
Ley de Heaps y Ley de Zipf en índices. Tomado de [1]
En la siguiente tabla se muestran la cantidad de tamaño extra que
pueden tomar el índice con respecto al texto original y a otros
factores como el modelo utilizado o técnicas especiales de compresión
[1]:
Modelo o técnica |
Espacio utilizado extra sobre el texto |
Modelo booleano con compresión |
10% a 25% |
Modelo vectorial |
15% a 30% |
Índice a nivel de palabra |
25% a 45% |
Direccionamiento de bloques |
4% para colecciones no muy grandes |
Compresión de texto |
25% a 30% |