Máster Calsi

26 enero 2008

Nº 11. El responsable de la Información


Aunque se salga algo de la temática de Infocalsi, no me he podido resistir. Ayer se publicó la siguiente reseña cinematográfica, escrita por Juan Lacasa, en el semanario La Cartelera, núm. 896, pág. 9, publicado por el periódico Levante-emv:

Fuente: La Cartelera, Levante-emv

La bajada de la noticia (metadatos para los humanos) dice:

“Dejando de lado su parte más gamberra, el popular Álex de la Iglesia ha realizado un thriller convencional de consumo rápido, con una trama enrevesada y llena de altibajos”.

Mientras que, en el último párrafo de la noticia, se lee:

“…aunque muchos esperábamos más de esta cinta, tampoco nos encontramos ante el típico y manido thriller convencional de consumo rápido y digestión difícil”.

Seguramente no habrá sido el autor el responsable de la bajada y no estará muy contento, pues las personas que, a falta de tiempo, sólo hayan leído este resumen, pensarán que ha dicho algo que no ha dicho.

Más allá de la anécdota, esta nota me sirve para reflexionar; me pregunto cuántos fallos de este tipo (no sólo gramaticales, que ya es una batalla perdida) pasarán desapercibidos en semanarios, dominicales, prensa, etc. No sé si me asusta más que no lo hayan revisado o que sí lo hayan hecho.

Se podrá argüir que es un error sin importancia y puede que tengan razón, pero yo me pregunto, si los ingenieros y arquitectos (por ejemplo) tienen una responsabilidad ante los fallos de sus diseños y ésta se les exige, ¿qué ocurre con la responsabilidad de los profesionales cuya materia prima de trabajo es la información y la palabra?

Creo que el problema está en que, si el trabajo está bien hecho, se dice que se crea patrimonio cultural (en un sentido estricto, pues se suele separar la ciencia de la cultura, cuando en realidad la ciencia es una parte más de la cultura) y, si está mal hecho, pues que tampoco pasa nada, que no es importante, que no es para tanto.

Puede que la Web semántica deba nacer primero en nosotros mismos...

20 enero 2008

Nº 10. Etiquetas, descriptores y palabras clave

Los blogs, como cualquier otra tipología documental, deben ser descritos de alguna forma para poder elaborar catálogos que nos informen tanto de su existencia como de los contenidos que albergan, ahorrándonos la terrible y angustiosa tarea de consultar la web a ciegas.

La construcción de estos catálogos de blogs precisa de una recuperación previa de los mismos y de una descripción documental. Estos procesos pueden ser automáticos, manuales o mixtos. Dada la imposibilidad a día de hoy de conseguir automatismo y fiabilidad, parece que el combinado es el menos malo.

La descripción manual de recursos web ha sido tradicionalmente un criterio usado para otorgar prestigio a los contenidos reunidos (Intute, Infomine, Librarian’s Internet Index, etc.) y, por ello, restringido generalmente a contenido científico –donde el prestigio del contenido se valora-.

Estos directorios están destinados a proporcionar coberturas limitadas y sesgadas, ya existentes en los directorios impresos, pero ahora acentuadas al máximo, debido al frenético incremento e inestabilidad de los recursos web. Pensemos no sólo en la eliminación o falta de actualización de recursos, sino en qué ocurre cuando éstos son citados y posteriormente sus contenidos son modificados.

Dado que la existencia de un grupo de personas que evalúen manualmente los contenidos de los blogs es algo difícil y limitado, los creadores, junto a los contenidos de sus blogs, introducen información estructurada especialmente para que pueda ser recuperada automáticamente y describa, entre otras cosas, “aquello de lo que trata” el blog.

Esta información estructurada, en su visión más general, son los lenguajes de marcado y, en su más específica –de momento-, los microformatos, pasando por un intermedio que son los metadatos de descripción.

Esto no es nada nuevo, pues muchas de las operaciones de recuperación de información en web son calcos conceptuales de operaciones que ya se realizaban con anterioridad. Los artículos científicos vienen precedidos de un resumen y “palabras clave” que cumplen esa misma función. En este caso, el recuperador de información es el catalogador, que usa esa información para introducirla en una base de datos. En la web son los motores de búsqueda quienes hacen esa tarea automáticamente.

En esta época de incunables web, el marcado de los contenidos hace que la forma de recuperación de información se base en descriptores. Los motores de búsqueda funcionan para poder reconocerlos, recuperarlos y, a partir de ellos, localizar recursos.

Sin embargo, existe un cierto solapamiento entre los conceptos de descriptores, palabras clave y etiquetas (tags). Desempolvando mis apuntes de indización, obtengo lo siguiente:

  • Palabras clave: Colección no ordenada (sólo alfabéticamente) de palabras significativas (no vacías), extraídas de forma automática por el ordenador, a partir del título, resumen y cada vez más a menudo del texto.
  • Descriptores: Colección no ordenada (sino puesta por orden alfabético) de conceptos. Pueden partir de una lista cerrada a priori (controlados) o no (libres).
  • Etiqueta [wikipedia]: elemento que se adhiere a otro elemento para identificarlo o describirlo (*); por extensión, una etiqueta también puede ser una o más palabras que se asocian a algo con el mismo fin (**).

* Un ejemplo es la etiqueta de un lenguaje de marcado.
** Descriptores de recursos: las famosas tags de la Web 2.0.

De aquí extraigo varias conclusiones:

  1. Los descriptores son conceptos, mientras que las etiquetas son elementos formados por descriptores que se unen a los recursos para identificarlos.
  2. Lo que el motor de búsqueda extrae del contenido existente entre las metaetiquetas de marcado son palabras clave, pero lo que introduce el usuario son descriptores, que pueden, a su vez, servir para etiquetar otros recursos.
  3. En xml, el nombre de toda etiqueta de marcado es un metadescriptor de contenido.
  4. Una nube de tags es..en realidad depende! La herramienta de ZoomClouds es una lista de palabras clave (se analizan los textos completos). Sin embargo, la herramienta proporcionada por Technorati es una lista de descriptores (recoge las etiquetas que yo asigno y las ordena por frecuencia). La nube entera es una etiqueta para el blog.
  5. Las palabras clave que suelen preceder a un artículo científico son en realidad descriptores si no hay ningún proceso automático para la extracción de dichos términos del documento.

…y es que en el fondo seguimos con los mismos problemas: perfeccionamiento y comprensión de los lenguajes documentales. Ellos son los verdaderos pilares de la futura Web.

¿Desean los documentalistas seguir siendo sus responsables o estamos escurriendo el bulto?

Por cierto, tengo que arreglar mi nube de tags…quiero decir, de palabras clave…

12 enero 2008

Nº 9. La Web 3.0: los pilares de la Web ∞.∞ (v.β)

Puesto que despedí el año preguntando si en 2008 me encontraría con la Web 3.0, lo justo es comenzar el año nuevo con ella.

David Maniega nos pidió un doble trabajo: reflexionar acerca de la llamada Web 3.0 y, de paso, practicar la redacción de contenidos tomando como base el post de Hebe Bravo “La Web 3.0, añade significado”.

El siguiente texto es, pues, un resumen de aquél organizado bajo mi punto de vista, que espero que sirva para plasmar de forma sencilla qué es lo que se está cocinando en los hornos de la Web ∞.∞ (v.β).



Cuando todavía no se ha incorporado el cambio de actitud que implica la Web 2.0, ya se habla de Web 3.0 como de una realidad inminente que promete transformar, no sólo nuestra experiencia web, sino toda nuestra cotidianidad pero, ¿qué es la Web 3.0?

El desarrollador Andrés Richero define así las diferentes fases de la Web:

  • Web 1.0 - Personas conectándose a la Web.
  • Web 2.0 - Personas conectándose a personas.
  • Web 3.0 - Aplicaciones web conectándose a aplicaciones web.

Aunque se coincide en que esta última etapa añadirá significado a la web, ni existe consenso acerca de lo que significa Web 3.0 (término “abstracto”, según José Antonio del Moral) ni sobre cuáles son los caminos más apropiados para su desarrollo.

Salvador Pérez Crespo -Telefónica- considera que será una revolución si se logra una combinación efectiva entre la inclusión de contenido semántico en las páginas web y el uso de Inteligencia Artificial que saque partido de ella.

Como los avances en esta disciplina son demasiado lentos y dificultosos, la solución podría estar en la combinación de las técnicas de Inteligencia Artificial con el acceso a la capacidad humana de realizar tareas extremadamente complejas para un ordenador. Ejemplos de ello son Mechanical Turk de Amazon y Google Image Labeler.

En cualquier caso, el aumento de la interactividad y de la movilidad serán factores decisivos en esta nueva etapa de la web. Por ello, en torno a la definición de Web 3.0 comienzan a aparecer proyectos que tienden a una cada vez mayor y más eficiente incorporación de la web a la cotidianidad:

la Web 3.0 se concibe como un nivel a ser alcanzado en mayor o menor plazo, mientras que la Web Semántica es un proceso evolutivo en construcción permanente

a) Web 3D

Muchos la ven como una extensión de los mundos virtuales (Second Life o There.com). Se cree que en el futuro la web será una gran alternativa al mundo real donde se podrá recorrer el planeta a través de ella sin abandonar el escritorio.

b) La Web centrada en multimedia

Web que ofrecerá búsquedas por similitudes en la multimedia (imágenes, música y vídeos) con sólo mostrar al buscador el medio de referencia.

La compañía Polar Rose, entre otras, están trabajando en estos proyectos.

c) La Web permanente

La también llamada Web omnipresente (o pervasive web) es un concepto que se ha extendido a partir del pasaje de los PC a los teléfonos celulares y PDA. Es una web que está en todas partes, no sólo en el PC o celular sino en la ropa, joyas, automóviles, etc.

¿Es la Web Semántica sinónimo de Web 3.0?

No, aunque muchas veces estos términos son empleados como tales. Quizás la principal diferencia sea que la Web 3.0 se concibe como un nivel a ser alcanzado en mayor o menor plazo, mientras que la Web Semántica es un proceso evolutivo en construcción permanente, de forma que ya estamos inmersos en ella.

Berners-Lee señala que, quizás, debería haberla llamado ‘Web de los datos’, dado que la palabra semántica es utilizada para significar diferentes cosas.

Se trataría de una web capaz de interpretar e interconectar un número mayor de datos que, diseñada correctamente, podría asistir a la evolución del conocimiento humano, permitiendo su avance en infinidad de campos, como la investigación genética, el tratamiento farmacológico de enfermedades, etc.

Esta visión del Web semántico como substrato para la inteligencia colectiva fue tratada por Tom Gruber en la 5ª Conferencia Internacional de la Web Semántica, donde consideró que la idea popular que tiende a considerar la Web Semántica y la Web Social como dos mundos con ideologías alternativas y en oposición es falsa y absurda.

La implementación del modelo

La Web alcanzará su capacidad máxima, tal como anticipaban Berners-Lee y Eric Molinero, cuando se convierta en un ambiente donde los datos puedan ser compartidos y procesados tanto por las herramientas automatizadas como por la gente.

Así pues, el primer desafío de la Web Semántica es proporcionar una lengua que exprese los datos, unas reglas para razonar sobre éstos y, además, permitir que éstas sean exportadas sobre el Web. Para ello es necesaria la definición de estándares:

  • URI (Uniform Resource Identifier): la base de la web semántica.
  • XML (Extensible Markup Language): el fundamento sintáctico.
  • RDF (Resource Description Framework): la descripción del recurso.
  • OWL (Ontology Web Language): la función y relación de cada componente.

Establecidos los estándares, Berners-Lee cree que los nuevos desafíos deberán ser tratados en términos de utilidad y accesibilidad, por ello, el punto clave de la Web Semántica estará en su potencial para las nuevas aplicaciones de datos sobre el web y en la capacidad de generar búsquedas más precisas e “inteligentes”.

Algunos creen que eso será el fin de los grandes buscadores. Según Nicholas Carr, la Web 3.0 “convertirá en obsoletos a los buscadores de hoy”.

Sin embargo, Berners-Lee opina que el hecho de que se agregue algo no quiere decir que se esté sustituyendo. Del mismo modo, los motores de búsqueda podrán evolucionar y hacerse Web semántico-compatibles, en la medida en que los usuarios lo exijan.

Dificultades para su generalización

  1. Complejidad: la sintaxis RDF/XML no es muy fácil de leer: Berners-Lee conviene en ello, aunque cree que no debería ser una complicación ya que al tratarse de sistemas de escritura de datos, la codificación semántica podrá ser totalmente automatizada.

  2. Actitud: el desarrollo e implementación de la Web 3.0 (al igual que la Web 2.0) será en gran parte una cuestión de actitud.

  3. Trabajo: exige una completa reanotación de la web, como indica Mª Jesús Lamarca. Por ello, otros investigadores están construyendo nuevos agentes para que puedan entender mejor la web tal como está hoy en día. Las páginas web ya tienen información semántica y estos agentes –microformatos- tratan de entenderla, como los humanos.

  4. Compartición de información: Según Pérez Crespo, habrá una fuerte reacción de quienes ahora disponen de la información, que no querrán compartirla.

  5. Spam semántico: la hará poco utilizable.

  6. Uso de estándares semánticos y confiables: que las personas e instituciones los usen es algo prácticamente imposible, según Ricardo Baeza-Yates.

  7. Privacidad: fuerte oposición entre sus defensores.

Algunos proyectos que anticipan el modelo de la Web 3.0

  • RadarNetworks: busca explotar el contenido suministrado por los usuarios en las redes sociales.
  • Proyecto KnowItAll: desarrollado en la Universidad de Washington y financiado por Google. Busca obtener y agregar información de usuarios de productos.
  • Powerset y TextDigger: Trabajan en buscadores web semánticos basados en el proyecto académico open source WordNet.
  • BlueOrganizer: construcción de agentes más inteligentes.
  • Parakey: proyecto que persigue la idea de unificar el escritorio y la web, a partir de la creación de una especie de sistema operativo web.

Mis conclusiones

Es curioso cómo, cada vez que se hablan de evoluciones y cambios, éstos se centran en procesos y acciones y no en recursos y contenidos.

La web 3.0 intentará marcar más inteligentemente los contenidos para que sean más fácilmente recuperables (o que las máquinas sean más inteligentes y sepan marcar ellos mismos los contenidos), pero sobre los contenidos en sí mismos no se habla mucho.

Puede que la Web 3.0 cree metadatos perfectos que marquen los contenidos o agentes que entiendan perfectamente los metadatos de los contenidos, pero

¿nos ocupamos lo suficiente de pensar quién se ocupará de crear los contenidos perfectos?

¿Será la propia Web ∞.∞ (v.β) capaz de crearlos?

En ese caso sólo nos dedicaríamos a buscar y recuperar. Bueno, entonces puede que no hubiese mucha diferencia con nuestros hábitos actuales, ahora que pienso..