Bajo licencia de Creative Commons.
Motores de búsqueda. Presente y retos
Fuente: Paulo Villegas Nuñez. BSI de Telefónica
Se han convertido en unas herramientas tan habituales como esenciales en la navegación por la Red pero, ¿cuál es la situación actual de los motores de búsqueda?, ¿qué desafíos tienen ante sí?. Obtenga la respuesta en este interesante artículo.
1.- Introducción
El concepto de búsqueda ha estado presente desde los primeros pasos de la informática y ha ido madurando y evolucionando hasta nuestros días. Los primeros algoritmos de búsqueda trataban de localizar de la forma más rápida posible datos almacenados dentro de una base de datos local. Pronto se descubrió que mediante la indexación de estos datos el proceso de búsqueda podía ser acelerado considerablemente. Así surgieron los primeros motores de búsqueda, cuya misión consistía en facilitar la localización de contenidos dentro de bases de datos. Estos buscadores trabajaban exclusivamente con datos textuales y no eran capaces de realizar una adquisición activa de contenidos. El operario del sistema era el encargado de introducirlos en la base de datos.
Las bases de datos distribuidas, y sobre todo la aparición de Internet fueron la clave para la creación de un nuevo tipo de concepto de buscador: aquel que de forma activa es capaz de explorar e indexar los contenidos con independencia de que se haya solicitado su búsqueda o no. Así llegamos al concepto de buscador existente en la actualidad: un sistema informático que indexa archivos almacenados en servidores, como, por ejemplo, los buscadores de Internet. Las búsquedas se hacen con palabras clave o con árboles jerárquicos por temas, y el resultado de la búsqueda es un listado de direcciones en las que se mencionan temas relacionados con las palabras clave buscadas.
Los motores de búsqueda de hoy en día se basan en tecnologías muy maduras y establecidas que ya han generado negocios de gran éxito comercial. Sin embargo, el contexto actual parece estar alcanzando un punto crítico en el que tendrá lugar una nueva batalla por los contenidos audiovisuales. Una gran cantidad de contenidos de vídeo y audio están apareciendo en Internet, y éstos no pueden ser tratados del mismo modo que la información textual. Por tanto, será necesario desarrollar nuevas tecnologías que permitan enfrentarse a los retos y problemas que suponen.
Esas tecnologías pueden dividirse en tres fases, dentro del proceso de búsqueda, como son:
1. La adquisición de contenidos.
En la adquisición de contenidos el buscador se vale de navegadores automáticos (también conocidos como 'bots' o 'spiders') encargados de descubrir nuevos contenidos y enviarlos al sistema para su indexación.
2. La indexación de contenidos.
La diferencia más significativa entre un buscador tradicional y la nueva generación de buscadores multimedia radica en la etapa de indexación de contenidos. Los nuevos buscadores añadirán aquí un análisis de los contenidos, haciendo posible la extracción de información adicional, que será elaborada hasta llegar a conceptos de alto nivel semántico.
3. La búsqueda de la petición del usuario.
Este último aspecto consiste en la búsqueda propiamente dicha. La interacción con el usuario será el punto que más cambiará en los próximos años. Actualmente la interfaz de búsqueda es muy primitiva y no se ha adaptado aún al mundo multimedia. La mezcla de los nuevos requisitos multimedia y el aumento de la dependencia de la tecnología móvil demanda que se desarrolle de nuevo una interfaz, y quizás también el display correspondiente.
Los motores de búsqueda implementarán progresivamente sistemas para recuperar y generar la información de las anotaciones de los contenidos multimedia, implementándose primero los sistemas manuales, luego los sistemas semiautomáticos (incluyendo subsistemas que implementen soporte a la anotación), y finalmente los sistemas completamente automatizados.
2. Contexto de los motores de búsqueda audiovisuales
Los contenidos audiovisuales han estado ligados al mundo de la informática de consumo desde la década de los años 90. Este vínculo, lejos de debilitarse, se ha ido haciendo progresivamente más estrecho con el paso de los años. El aumento del ancho de banda de los accesos residenciales a Internet, junto a la aparición de nuevos codecs de vídeo y audio de una gran eficiencia, han sido los responsables de fortalecer aún más esta estrecha unión, hasta el punto de hacerla inseparable.
En la actualidad, la red se encuentra repleta de contenidos audiovisuales, y éstos suponen un desafío radicalmente distinto para los motores de búsqueda. Las tecnologías maduras que se utilizan para localizar, indexar y buscar contenidos textuales no son válidas para estos nuevos contenidos audiovisuales, que suponen un problema de otra naturaleza. En este sentido, los contenidos audiovisuales son difíciles de analizar y de 'comprender' por un programa informático, mucho más que el texto.
Pero esta aparición de contenidos audiovisuales no es en absoluto un fenómeno aislado, sino que es parte de una transformación tecnológica que abarca multitud de campos y que afectará a nuestro modo de entender, producir y consumir la tecnología. Esta transformación de las tecnologías de búsqueda y de los servicios es una transformación de escala y de tipo, abriendo nuevas posibilidades comerciales para las organizaciones, que pueden tratar con un nuevo nivel de complejidad no solamente en almacenamiento y recuperación, sino también en dinámica de la información.
Este nuevo entorno que se está perfilando impondrá nuevos requisitos en los motores de búsqueda, los cuales deberán se capaces de:
• Tratar con un conjunto completo de diferentes tipos de información (texto, e-mail, sonido, anotaciones, imágenes) y fundir estos diversos tipos de fuentes en las nuevas interfaces audiovisuales en tiempo real. Será necesario manejar de la misma forma contenidos de distinta naturaleza.
• Proporcionar soporte a la toma de decisiones sobre la resolución de consultas, bien sea mediante análisis o mediante recomendaciones validadas.
• Responder a los cambios rápidos en la estructura de los mercados y en las necesidades de los usuarios (cambios que han ayudado a crear gigantes globales como Google en un tiempo récord de siete años). Son de esperar cambios significativos en el mercado de los buscadores, ya que la nueva generación de motores de búsqueda audiovisuales supondrá una nueva batalla en el sector.
• Explotar el contexto geográfico, social, político, lingüístico y cultural en el cual será usada la información. Uno de los mayores esfuerzos deberá centrarse en la adaptación lingüística del buscador a los contenidos. Es importante que el motor de búsqueda sea capaz de extraer información semántica, y para ello debe ser capaz de 'entender' el idioma que utilicen los contenidos; incluso será posible encontrar contenidos que mezclen más de un idioma.
• Crear tecnologías subyacentes que distribuyan los nuevos servicios de búsqueda y recuperación.
Tras todos estos cambios, el concepto que actualmente tenemos de buscador cambiará radicalmente, dejando obsoleto al actual. Estos nuevos navegadores serán mucho más fáciles de usar, más inteligentes, y sus resultados se acercarán mucho más a lo que el usuario demande, ajustándose incluso a sus preferencias personales. Estos nuevos buscadores deberán tener en cuenta muchos nuevos conceptos, como son:
• La gestión de la movilidad.
• La explotación de la realidad.
• Las nuevas arquitecturas de servicios, como la computación peer-to-peer.
• El nuevo papel de las redes sociales en el ranking de relevancia.
• La clasificación e indexado de las características de los nuevos tipos de contenidos.
• La integración de datos en el terminal móvil.
• La búsqueda sensible al contexto.
• La interpretación de emociones.
• La trascendencia de la relevancia.
Los expertos creen que necesitamos crear 'campos de conocimiento' específicos del usuario para mantener el contexto en sus múltiples búsquedas. Esto puede cubrir los diferentes elementos del contexto, como son el lugar, la hora y el papel del usuario, aunque también los contextos creados por los documentos multimedia, como podrían ser la similitud en la satisfacción o la emoción.
Con todo ello, se abre la puerta a la entrada de los nuevos contenidos multimedia en el mundo de los buscadores.
3.- descripción de un sistema de búsqueda
En la Figura 1 se presenta un diagrama de bloques tipo de un sistema de búsqueda. El diagrama incluye diferentes componentes y funcionalidades adicionales respecto a los sistemas de búsqueda tradicionales. Algunos de estos componentes todavía están en desarrollo, pero su integración en la arquitectura permite aumentar las prestaciones de estos sistemas y mejorar los servicios ofertados por ellos.
Figura 1. Diagrama de bloques de un sistema de búsqueda actual
En la arquitectura presentada, el desarrollo de un sistema de búsqueda comienza por medio del procesado de los contenidos a indexar. Para ello, la primera etapa de la arquitectura consiste, por un lado, en un análisis y extracción de características y, por otro, en una etapa de anotación semiautomática, siendo el objetivo de ambos bloques la realización de un análisis profundo, también a nivel semántico, de los contenidos. Posteriormente, la etapa de gestión del conocimiento genera las descripciones de los contenidos a partir de los resultados previos, y las agrupa por medio de ontologías [1] y otras estructuras semánticas. A continuación, una vez que se cuenta con los contenidos y con sus descripciones, el sistema puede realizar su procesado para ofrecer nuevas funcionalidades y servicios de búsqueda. Para ello se hace uso de un motor de búsqueda, de medidas de relevancia, que determinan en qué medida un documento satisface una consulta, y de un módulo de consulta, responsable de la importante tarea de interactuar con el usuario para que éste defina la búsqueda a realizar. Por último, la distribución y presentación de los resultados de la búsqueda resulta crucial para que la interacción usuario-buscador, que comenzó en el módulo de consulta, sea lo más satisfactoria posible.
La anotación de los contenidos multimedia es un proceso que puede resultar complicado y tedioso para un anotador humano. Para simplificar este proceso existen diversas aplicaciones que facilitan en gran medida esta labor. La Figura 2 muestra una de ellas.
Figura 2. Captura de una aplicación de ayuda a la anotación
En cuanto a la presentación de los resultados, el procedimiento más habitual en la actualidad consiste en presentar los resultados de modo secuencial, en una lista en la que los resultados que más se aproximan al objetivo de la búsqueda ocuparán los primeros puestos. Este sistema de presentación, aunque sencillo, no aprovecha las posibilidades que ofrecen la clasificación y agrupación jerárquica de contenidos.
4.- Desafíos futuros
El problema de escala
Actualmente existe el consenso generalizado de que los requisitos de velocidad y volumen de las tareas de recuperación de información a las que se enfrentan los proveedores de servicios, tanto en el sector privado como en el público, están aumentando a gran velocidad, con clientes que demandan servicios de almacenamiento del orden de terabytes, y clientes profesionales que comienzan a plantear el almacenamiento de petabytes (aproximadamente el tamaño requerido para almacenar el histórico actual de todos los contenidos web), usando arquitecturas capaces de distribuir miles de consultas por segundo y con mejoras en la precisión de los resultados. Las búsquedas rápidas demandan soluciones para resolver estos nuevos retos de escala y del tipo de contenidos, creando la necesidad de investigar técnicas audiovisuales que estén construidas sobre las nuevas formas de comportamiento de los usuarios.
La aparición de multitud de nuevos contenidos audiovisuales en la red no hará más que agravar esta situación. El ancho de banda necesario para transmitir una misma información en forma audiovisual es varios órdenes de magnitud mayor que si, por ejemplo, se envía una trascripción textual. El volumen de información que necesita ser coherentemente categorizada, etiquetada, anotada y almacenada está incrementándose desde los actuales pocos gigabytes a los petabytes del mañana. Este crecimiento es en parte el resultado del uso de objetos multimedia, aunque también se debe a recambios en la forma en que la industria, los organismos de investigación y los usuarios en general perciben el propósito de la búsqueda, ya que ésta es hoy en día el método elegido para interactuar con la información. La familiaridad de los clientes con estos motores de búsqueda está demandando más volumen de uso y una mayor precisión.
Las nuevas generaciones de buscadores deberán utilizar tecnologías escalables, que sean sencillas de ampliar a medida que el número de contenidos y de usuarios vaya en aumento.
La extracción de significado de los contenidos: la brecha semántica
La estructura del material multimedia es radicalmente diferente a los documentos de texto. Es necesario obtener información semántica de los datos multimedia para poder indexarlos y clasificarlos adecuadamente.
Al realizar un análisis automático sobre un contenido audiovisual es posible extraer mucha información sobre él, sin embargo, esta información será, en su mayor parte, de muy bajo nivel. En este sentido, en un vídeo, por ejemplo, es posible distinguir colores, secciones, detectar cambios de plano, velocidad de las formas, etc., pero es difícil lograr que el sistema 'entienda' el vídeo. Por tanto, es muy complicado extraer una información semántica partiendo de estos datos de bajo nivel.
Por otro lado, una vez que se dispone de la información semántica de alto nivel, es posible indexar el contenido y realizar búsquedas eficientes sobre él. El eslabón existente entre estos dos puntos es un problema mayor de lo que se podría pensar en una primera aproximación, puesto que requiere que un sistema informático realice tareas que, a pesar de que a nosotros nos resultan triviales, requieren un elevado nivel de inteligencia. No pueden ser resueltas apoyándose únicamente en una enorme capacidad de cálculo.
Este tipo de efecto se está produciendo actualmente en los buscadores multimedia, y es lo que se denomina 'brecha semántica'.
La interacción con el usuario
La interacción con el usuario es un factor crítico en el éxito o fracaso de un buscador. Este es un campo complicado, puesto que conjuga factores tecnológicos con psicológicos y del conocimiento. Sin embargo, existen muchos pequeños problemas abiertos en el campo de las interfaces de los buscadores multimedia, entre estos problemas se puede destacar lo siguiente:
• Las interfaces de usuario necesarias para interactuar con los motores multimedia necesitan enfoques nuevos, tanto para lanzar búsquedas (las palabras clave no son suficientes), como para presentarlas y para establecer y guardar sesiones de búsqueda.
• Es importante avanzar en la personalización de los buscadores, de forma que los resultados estén adaptados a cada usuario, tanto en lo que respecta a la presentación como a la relevancia.
• Los terminales móviles plantean desafíos especiales, algo que suele ser pasado por alto.
• En el mejor de los casos existen interfaces llamativas y originales, pero sin suficiente énfasis en su usabilidad.
• Hay que investigar en lo relativo a la presentación de la información, no dejando, por ejemplo, que al usuario se le presente una lista plana de 1.000 resultados. Esto incluye la implementación de listas de ordenación y de clasificación con significado, así como la organización de los resultados con técnicas de agrupación o clustering.
• Hay que mejorar la visualización final de los resultados de búsqueda. Los contenidos multimedia son difíciles de presentar de forma eficiente, especialmente cuando su volumen o duración es alto, o en presencia de grandes colecciones de material.
• Hay que generar eficientemente resúmenes con criterios semánticos, algo especialmente difícil para el material multimedia.
La distorsión en los buscadores
Un buscador detecta la relevancia de un resultado y ordena el conjunto de estos resultados según dicha relevancia. Esta relevancia puede depender de lo 'interconectada' que esté cada página con el resto de la red. Por desgracia, este sistema es manipulable, ya que es posible optimizar una página web de modo que alcance una posición superior a la que realmente le correspondería.
La optimización de los motores de búsqueda, denominada SEO (Search Engine Optimization), es un conjunto de métodos dirigidos a mejorar el ranking de un sitio web en los listados de los buscadores. Existe una importante industria alrededor de esta optimización a la que también se refiere el término SEO que lleva a cabo proyectos de optimización de sitios web.
La distorsión en los buscadores multimedia plantea nuevos retos que esconden un alto grado de interés comercial tanto para los proveedores de tecnologías SEO como para los anunciantes. En este conflicto de intereses lo habitual es que el buscador intente permanecer lo más neutral posible, puesto que los usuarios no 'simpatizarían' con un buscador que fuese fácilmente manipulable. La estrategia más habitual es combatir estas prácticas y, además, permitir la inserción de anuncios inteligentes (en función de la búsqueda realizada) manteniendo clara la división entre los resultados de la búsqueda y los anuncios.
5.- Conclusiones
La tecnología de los buscadores de contenidos audiovisuales se encuentra actualmente en pleno desarrollo. La nueva generación de motores de búsqueda va a suponer un cambio radical en la forma de acceso a los contenidos audiovisuales.
Los motores de búsqueda facilitan la localización de este tipo de contenidos, permitiendo su exploración e indexación de forma activa dentro del sistema de almacenamiento del buscador del que forman parte. Los contenidos almacenados en los nuevos buscadores audiovisuales pueden, a su vez, ser introducidos, indexados y catalogados dentro del sistema de almacenamiento de manera automática, y de manera más eficiente. En este artículo se han repasado los aspectos más relevantes para proporcionar una visión general de los nuevos buscadores audiovisuales.
Hay que indicar, por último, que se presentan una serie de desafíos a superar en el futuro cercano para solventar los diversos problemas que se plantean actualmente en el entorno de los buscadores multimedia. Estos desafíos consisten básicamente en superar el problema de escala, para permitir que la creciente cantidad de información actual sea almacenada e indexada de manera eficiente para su posterior búsqueda, y en cerrar la brecha semántica, es decir, el espacio que existe entre la información semántica de alto nivel (como es, por ejemplo, la descripción de los objetos que aparecen en una escena de una secuencia de vídeo) y la de bajo nivel (como es, por ejemplo, la información a nivel de píxel del color de una región en una imagen, o un cambio de plano en una secuencia de vídeo). Otros retos a superar en el futuro son la mejora de la interacción con el usuario, que permita un acceso amigable y natural al buscador por parte de éste, y la eliminación de la distorsión en los buscadores, que permita una mayor rentabilidad en su explotación.
Este artículo es sólo una introducción a un tema de gran trascendencia para la Internet actual y sus servicios que se tratará con más extensión en próximos artículos.
Paulo Villegas Núñez (Telefónica I+D) et al.
--------------------------------------------------------------------------------
- Luis Fuentes de Ciudadanos: “La inversión en I+D+i ha de ser motor de cambio para el modelo productivo”
- 'Empieza por tus puntos fuertes, España debe innovar en turismo'
- Cómo potenciar la innovación de los empleados a través de los espacios de trabajo
- Diego Correa, premio Por Talento al Emprendedor con Discapacidad 2013
- IBM, Oracle y Microsoft, las mayores empresas TIC
- Enhorabuena
hace 22 horas 18 mins - Más que merecido
hace 2 días 11 horas - Una buena noticia , me
hace 2 días 12 horas - DEsde que te levantas hasta
hace 3 días 20 horas - Toda la vida es política,te
hace 4 días 12 horas - ¿En serio? Con las
hace 4 días 20 horas - Vergonzoso es:
mezclar la
hace 5 días 14 horas - No hay nada de malo en ser
hace 6 días 23 horas - Uno no se hace Gay o
hace 1 semana 19 horas - Cada día más feudales,
hace 1 semana 1 día
Enviar un comentario nuevo