domingo, 23 de abril de 2017

Acceso a la información: Recuperación

En esta nueva entrada del blog vamos a tratar sobre la realización de la búsqueda de información en Internet; este proceso comienza con la realización de la búsqueda que se envía al servidor, esta petición se envía a los servidores de índices, a continuación , la petición viaja hasta los servidores de documentos que contiene una copia de todas las webs que ha visitado Google, con la información obtenida se genera la página de resultados de la búsqueda y por último, se devuelve el resultado de la búsqueda. También hablaremos sobre la diferencia entre recuperación de información y la navegación en Internet, esta ultima tratada en la entrada anterior. 





¿Qué es la búsqueda y recuperaciones información (Information Search and Retrieval)? 

Es una ciencia que se decida a la búsqueda de información en documentos electrónicos y cualquier tipo de colección de documento digital; encargada de la búsqueda de metadatos y de la búsqueda de datos relacionales. Para alcanzar su objetivo se sustenta en los sistemas de información, y al ser de carácter multidisciplinario intervienen bibliotecólogos para determinar criterio de búsqueda, la relevancia y pertinencia de los términos, en conjunto con la informática. 

HISTORIA:
La búsqueda de información a través de Internet se popularizo gracias al articulo As We May Think en el año 1945. Durante los años 50 se presentó los primeros sistemas automatizados de recuperación de información, en 1970 se comenzó a utilizar sistemas de larga escala como Sistema de Diálogo Lockheed. En 1992, el Departamento de Defensa de EEUU con el NIST, patrocinan TREC, esto hizo posible la suministración de la infraestructura necesaria para la evaluación de metodologías de recuperación de texto en una colección a larga escala.  Los buscadores construyen un lenguaje natural relacionado con algoritmo que incluya las reglas lógicas de la búsqueda y una valoración de resultados. Los motores de búsqueda se plantean una pregunta con menos de dos términos mostrando resultados mínimos.

Recuperación de Información
Se puede recuperar información a través de diferentes herramientas: base de datos, Internet, tesauros, ontologías, mapas... En estas herramientas se almacena información estructurada mediante un lenguaje de interrogación, teniendo en cuenta elementos claves que permiten obtener una mejor búsqueda. En una búsqueda pueden surgir dos fenómenos:
1- Silencio documental, documentos almacenados en la base de datos pero no recuperados, debido a una estrategia demasiado específica o palabras claves utilizadas no adecuadas.
2-Ruido documental: documentos recuperados por el sistema pero no son relevantes. Ocurre cuando la estrategia es demasiado general. 

Los componentes esenciales de una recuperación de información son; documentos estructurados(herramientas de indización y control terminológico); y bases de datos donde estén almacenados los documentos(definir lenguajes de interrogación y operadores que soporten la base de datos).

Tipos de fuentes:



La fuente primaria apestar de tener datos originales, tiene mucho volumen y consume demasiado tiempo.
La fuente se cundiría son revistas de lato nivel con información de calidad, pero suele estar desfasada y se necesita de conocimientos comandos. 
La fuente terciaria tiene un fácil acceso y uso, pero la información es desfasada y  antigua. Ademas, esta fuente da la información de forma cocina, esto hace que esta información este incompleta. 


Tipos de herramientas:

Base de datos:
-Internet: Revistas electrónicas, buscadores, directorios, metabuscadores, buscadores selectivos, programs,agentes inteligentes.
-Lenguajes de indización y control terminológico:
  -Indices: listado de términos normalizados que representa el contenido de un recurso.

 Tipos:
I. de materias, I. Alfabético, I. KWIC, I.KWOC. 
  - Palabras claves, se compone de descriptos admitidos y descritos no admitidos; tiene tres tipos de relaciones, jerárquica, asociativa y sinónimos.

-Lenguaje de interrogación y ecuaciones de búsqueda:
  -Lenguajes: cada sistema tiene su propio lenguaje, este es el que permite hablar en el mismo lenguaje que la base de datos.
-Ecuaciones Simples
-Ecuaciones Compuestas:
  -Operadores: Lógicos, posiciones, existencia, exactitud y CCL.


Métodos de recuperación de información 

Sistema de recuperación de información de lógica difusa: permite consultas con frases normales, la máquina solo elimina los signos de puntuación, dejando las palabras importantes. Este sistema se basa en proposiciones de verdadero y falso. 

Técnicas de ponderación de términos: la recuperación de información esta organizada en ponderación,  esta ponderación depende de términos que contiene el documento y la frecuencia con la que se repiten estos. 

Técnica de clustering: se hace uso de el algoritmo ranking que dan valores a los términos, agrupan los documentos por orden de importancia. 

Técnicas de retroalimentación por relevancia:se obtiene el mayor número de documentos relevantes tras establecer varias estrategias de búsqueda. Se usa el algoritmo genético. 

Técnicas de stemming: elimina las confusiones semánticas que se pueden dar en la búsqueda de un concepto, de forma que solo busca la raíz de la palabra. 


La búsqueda de información se fundamenta en un serie de pasos precisos para obtener con la mayor rapidez y eficacia la información deseada. Esto se conoce como la estrategia de búsqueda. 
Se define o resume en u a frase corta el tema sobre el e se desea la información; se buscan los conceptos claves del tema. Estos conceptos se traducirán a los términos de interrogación utilizados por el sistema en el que vamos a realizar la búsqueda. Se construirá una ecuación de búsqueda utilizando los operadores booleanos, para buscar en un campo determinado o en varios campos al mismo tiempo. 
A continuación se detallan todos los pasos que hay que seguir. 

LA CONSULTA

1)Necesidad de información, lenguaje natural de información demandada.
2)Formulación del usuario, proceso racional del usuario para crear la frase.
3)Consulta del usuario, utilización de términos y palabras que le resultan aproximados a la información búsquedas.
4)Formulación del sistema, descomposición de la búsqueda del usar, donde se aplican los operadores Booleanos y especiales propios del algoritmo de recuperación que se fuere emplear. 



5)Consulta del sistema, resultado de la formulación del sistema, es decir, es la consulta del usuario a un lenguaje documental técnico. 
6)Expansión de consulta, proceso de adjuntar nuevos términos para mejorar el contexto de la consulta original del usuario. 
7)Patrón, expresión sintáctica que define una serie de caracteres textuales, alfabéticos, numéricos y especiales, que se ajustaran por coincidencia en una palabra o término de un texto determinado. 


BASE DE CONOCIMIENTO
1)Colección/ biblioteca de documentos: selección de documentos obtenidos previamente o con webcrawling(metabuscador que combina la búsqueda de Google, Yahoo y otros motores de búsqueda populares). 
2)Colección de referencia documentos utilizados para la experimentación de modelos de recuperación de información y sus algoritmos. 
3)Documento:Elemento básico que conforma las colecciones y unidad básica de la recuperación.
4)Documento sustituto: es el símil de un documento de colección. 
5)TREC: es la colección más importante a nivel internacional. 

DEPURACIÓN E INDEXACIÓN
1)Depuración: procesos de eliminación de signos diacríticos, sustitución de caracteres especiales, transliteraciones... por los que pasan los textos para su posterior indexación, almacenamiento y recuperación. 
2)Palabras vacías: palabras que en un texto aparecen de forma frecuente y cuyo significado es nulo. 
3)Reducción: reducción de palabras a sus raíces gramaticales, suprimiendo género, desinencia,prefijo o sufijo. 
4)Indexación: proceso de elaboración de un índice de todas las palabras de un texto, este proceso permite a las bases de datos y motores de búsqueda realizar consultas rápidas y sistemáticas. 
5)Fulltex: es un tipo método de la indexación por el que todas las palabras que componen un texto se utilizan como términos de indexación. 

EVALUACIÓN Y RESULTADOS DE LA RECUPERACIÓN
1)Precisión: medida que define cuantitativamente la relación de los documentos y la consulta.
2)Exhaustividad: recuperación de documentos relevantes. 
3)Pertinencia: documento que añade información a la previamente almacenada en la mente del usuario.
4)Relevancia: es una medida subjetiva que depende de la necesidad de información o del grado de conocimiento del usuario. 
5)Rendimiento: factor para la evaluación de la información, se obtiene al evaluar la pertinencia y exhaustividad.
6)Ranking: evaluación de los resultados, tras aplicar un modelo de recuperación de información. 

SISTEMA DE RECUPERACIÓN DE INFORMACIÓN
1)Tareas de recuperación: rutina algorítmica ejecutada por el sistema para dar una respuesta al usuario.
2) Algoritmo de recuperación: conjunto de métodos documentales ya predefinidos en el funcionamiento de un programa informático. 
3)Filtrado: proceso de perfección de la consulta del usuario.
4)Coincidencia exacta:son los documentos que cumplen las expectativas del usuario en un 100%.
5)Recuperación de datos: contenido que cumple los requisitos del usuario por coincidencia de patrones. 
6)Minería de datos: extracción de datos mediante métodos de crawling.
7)Clustering: agrupación de documentos que satisfagan un conjunto de propiedades comunes. 






Finalmente, la diferencia que existe entre la recuperación de información que hemos tratado en esta entrada y la navegación en Internet, tratada en la entrada anterior; es la forma de obtener la información; mientras que en la navegación es a través de un hipertexto, siendo esta obtención de información mas lenta y dependiendo del interés del usuario; la recuperación de información se obtiene de forma lineal. 


Bibliografía:
  • http://www3.uah.es/bibliotecaformacion/BECO/BUSQUEDADEINFORMACION/1_introduccin.html
  • http://www.mariapinto.es/e-coms/busqueda-y-recuperacion-de-informacion/
  • http://slideplayer.es/slide/3135792/



1 comentario:

  1. Es sorprendente que en los años 50 por un articulo, se haya desarrollado todo este mundo de la información.

    ResponderEliminar