XML/RDF
INTRODUCCIÓN A LOS MOTORES DE RECUPERACIÓN
DE DOCUMENTOS XML/RDF
El lenguaje de Internet para la creación de documentos electrónicos más conocido es el HTML, que es con el que se define la estructura y contenido de una página web. Consta de una serie de etiquetas (markups) predefinidas que permiten construir documentos que contienen títulos, párrafos y listas de texto, tablas, imágenes y otro elementos para la presentación de información.
- XML son las siglas de Extensible Markup Language, un lenguaje definido por el W3C. XML fue creado con la idea de añadir un mayor contenido semántico a la web, al ser más flexible y adaptable que el HTML, ya que éste era únicamente un lenguaje de marcado que definía la estructura de la web y no proporcionaba información sobre el contenido. XML describe la estructura de los documentos, pero deja a libre elección el nombre que recibirá cada una de las etiquetas. El número de sublenguajes que pueden crearse a partir del metalenguaje XML es prácticamente ilimitado.
- RDF son las siglas de Resource Description Framework, o lo que es lo mismo: marco de descripción de recursos. Es un estándar que ayuda a convertir la Web en una infraestructura global en la que sea posible compartir y reutilizar datos y documentos entre diferentes tipos de usuarios. RDF proporciona información descriptiva sobre los recursos y documentos que se encuentran en la Web y que se utiliza, por ejemplo, en catálogos de libros, directorios, colecciones personales de música, fotos, eventos, etc.
Objetivo de los motores de recuperación
Los lenguajes de XML, RDF, OWL, etc. han sido diseñados para ser usados por aplicaciones que necesitan procesar el contenido de la información, dando paso a la Web Semántica y cuyo objetivo no es presentar la información para los humanos como sucede en la web tradicional. Los motores de recuperación de documentos XML/RDF, surgen para recuperar esta información y el contenido de dichos documentos.
Hasta ahora los motores de recuperación de información de Internet permiten hacer una búsquedas, y recuperar documentos que contengan dicha búsqueda. A veces, de esos documentos, la unica información que podemos obtener son contextos descontextualizados, es decir, si en un buscador se introduce la palabra Paris Hilton aparecerán resultados sobre los hoteles Hilton, París y la actriz Paris Hilton. En cambio en utilizando un motor de recuperación semántico, el buscador nos debería ir guiando al resultado preguntándonos que tipo de información buscamos: hoteles Hiltón, la ciudad de Paris o la actriz.
El gran problema que presenta la recuperación y organización de la información en esta web semántica es que no existen motores de recuperación de carácter general que permitan búsquedas basadas en documentos RDF / XML por toda la web.