Modelo vectorial

El modelo vectorial considera que el uso de pesos binarios es una gran limitación e introduce el uso de pesos que pueden tomar un mayor rango de valores, haciendo posible la coincidencia parcial entre documentos y consultas.


Así pues, consultas y documentos tienen asignado un peso para cada una de las palabras clave de la colección. Estos pesos se usan para calcular el grado de similitud entre cada documento almacenado en el sistema y las consultas que puedan hacer los usuarios. El grado de similitud calculado, se usa para ordenar de forma decreciente los documentos que el sistema devuelve al usuario, en forma de clasificación (ranking). Esta forma de seleccionar los documentos devuelve un conjunto mucho más preciso que el que pueda recuperar el modelo booleano.


En este modelo la relación existente entre documentos y términos clave y la análoga entre consulta y términos clave, se representan mediante vectores, cuyos componentes son los pesos de los términos clave en la entidad a la que corresponde el vector. Así se define un vector para representar cada documento y consulta:


  • El vector d sub j está formado por los pesos asociados de cada una de las palabras clave en el documento d sub j.
  • El vector q está compuesto por los pesos de cada una de las palabras clave en la consulta q.

Así, ambos vectores estarán formados por tantos pesos como palabras clave se hayan determinado en la colección, es decir, ambos vectores tendrán la misma dimensión.


El modelo vectorial propone evaluar el grado de similitud entre el documento d sub j y la consulta q, utilizando una relación entre los vectores d sub j y q. Esta relación puede ser cuantificad. Un método muy habitual es calcular el coseno del ángulo que forman ambos vectores. Cuanto más parecidos sean, más cercano a 0º será el ángulo que formen y en consecuencia, el coseno de este ángulo se aproximará más a 1. Para ángulos de mayor tamaño el coseno tomará valores que irán decreciendo hasta -1, así que cuanto más cercano de 1 esté el coseno, más similitud habrá entre ambos vectores, luego más parecido será el documento d sub j a la consulta q.


Una forma de determinar cuales serán los documentos a devolver, será recuperar aquellos que superen un umbral de similitud. Se ordenarán en orden decreciente, situándose en los primeros lugares aquellos que se consideren más relevantes.


Para que un Sistema de Recuperación y Organización de la Información basado en este modelo funcione satisfactoriamente, es fundamental el modo en el que se calculan los pesos. La manera más común de calcular el peso de una palabra clave en un documento es usar una relación entre la frecuencia interna del término en el documento y la inversa de la frecuencia del término en todos los documentos de la colección.


La frecuencia interna de un término en un documento, mide el número de ocurrencias del término sobre el total de términos del documento y sirve para determinar como de relevante es ese término en ese documento.


La frecuencia del término en el total de documentos, mide lo habitual que es ese término en la colección, así, serán poco relevantes aquellos términos que aparezcan en la mayoría de documentos de la colección. Invirtiéndola conseguimos, su valor sea directamente proporcional a la relevancia del término.


A la hora de calcular el peso se usan numerosas fórmulas, pudiéndose dar más importancia a la frecuencia interna, o a la inversa de la frecuencia total, alterando los multiplicadores que las preceden en la fórmula.


Las mayores ventajas del modelo vectorial son:


  • La forma de calcular los pesos para los términos mejora el rendimiento del Sistema de Recuperación y Organización de la Información.

  • Su estrategia de coincidencia parcial entre consulta y documentos permite la recuperación de documentos que se aproximan a las condiciones especificadas en la consulta.

  • Comparar los vectores de los documentos con el vector de la consulta permite ordenarlos por su grado de similitud.

Teóricamente tiene la desventaja de considerar que los términos clave son independientes entre sí. Esta consideración podría disminuir el rendimiento de las consultas formadas por varios términos que a nivel lógico están relacionados. Sin embargo, en la práctica, el considerarlos dependientes puede suponer una desventaja, puesto que podrían proliferar demasiadas dependencias y una aplicación indiscriminada de ellas a lo largo de los documentos de toda la colección podría frenar el rendimiento global del sistema.


A pesar de su simplicidad, el modelo vectorial logra unos resultados habitualmente superiores a los de otras alternativas de Sistemas de Recuperación y Organización de la Información. Por esto es el modelo más usado actualmente.

Modelos

Más información