Modelo probabilístico

La idea en la que se sustenta el modelo probabilístico es que dada una consulta de usuario, existe un conjunto de documentos formado exclusivamente por todos los documentos relevantes para esa consulta. Dada la descripción de este conjunto no habría problemas en recuperar esos documentos. Así que la tarea de recuperación y organizacion de la informacion puede reducirse a determinar que propiedades debe tener ese conjunto. El problema es que esas propiedades no pueden conocerse con exactitud, aunque pueden utilizarse los términos clave contenidos en la consulta para realizar una aproximación inicial de estas propiedades y generar un conjunto inicial. Ya sea con la ayuda del usuario o sin ella, el sistema refina en la definición del conjunto de documentos relevantes a partir del último conjunto construido, repitiendo esta operación tantas veces como sea necesario para construir el conjunto de documentos relevantes que será presentado al usuario.


En definitiva, dada una consulta q y un documento d sub j de la colección, el modelo probabilístico estima la probabilidad de que el documento d sub j sea relevante para el usuario.


El modelo probabilístico asume que esta probabilidad de relevancia depende solo del documento y la consulta. Además, asume que hay un subconjunto R de documentos que el usuario prefiere como respuesta para la consulta q.


Para computar esta relevancia el modelo usa la relación "P" que mide la similitud entre documento y consulta. Usar las probabilidades de que un documento sea relevante para una consulta para hacer la clasificación (ranking) minimiza la posibilidad de error.


Necesita de un método para calcular las probabilidades iniciales, para lo que hay numerosas alternativas. Se pueden aprovechar por ejemplo las frecuencias de las palabras clave en un documento y la frecuencia en todos los documentos.


Tras una aproximación se obtiene un subconjunto inicial, que usaremos para refinar aún más la búsqueda, recalculando las probabilidades, incluyendo en las fórmulas valores como el número de archivos en este subconjunto, o premiando a los documentos que pertenezcan a él. Estas operaciones se repiten iterativamente, hasta que se obtienen las probabilidades definitivas.


Hay muchas otras opciones para calcular estas probabilidades. Otra podría ser recibiendo la ayuda de los usuarios, que pueden determinar que documentos de los que se les devuelvan, son más relevantes para su consulta.


Modelos

Más información