Máster Calsi

20 enero 2008

Nº 10. Etiquetas, descriptores y palabras clave

Los blogs, como cualquier otra tipología documental, deben ser descritos de alguna forma para poder elaborar catálogos que nos informen tanto de su existencia como de los contenidos que albergan, ahorrándonos la terrible y angustiosa tarea de consultar la web a ciegas.

La construcción de estos catálogos de blogs precisa de una recuperación previa de los mismos y de una descripción documental. Estos procesos pueden ser automáticos, manuales o mixtos. Dada la imposibilidad a día de hoy de conseguir automatismo y fiabilidad, parece que el combinado es el menos malo.

La descripción manual de recursos web ha sido tradicionalmente un criterio usado para otorgar prestigio a los contenidos reunidos (Intute, Infomine, Librarian’s Internet Index, etc.) y, por ello, restringido generalmente a contenido científico –donde el prestigio del contenido se valora-.

Estos directorios están destinados a proporcionar coberturas limitadas y sesgadas, ya existentes en los directorios impresos, pero ahora acentuadas al máximo, debido al frenético incremento e inestabilidad de los recursos web. Pensemos no sólo en la eliminación o falta de actualización de recursos, sino en qué ocurre cuando éstos son citados y posteriormente sus contenidos son modificados.

Dado que la existencia de un grupo de personas que evalúen manualmente los contenidos de los blogs es algo difícil y limitado, los creadores, junto a los contenidos de sus blogs, introducen información estructurada especialmente para que pueda ser recuperada automáticamente y describa, entre otras cosas, “aquello de lo que trata” el blog.

Esta información estructurada, en su visión más general, son los lenguajes de marcado y, en su más específica –de momento-, los microformatos, pasando por un intermedio que son los metadatos de descripción.

Esto no es nada nuevo, pues muchas de las operaciones de recuperación de información en web son calcos conceptuales de operaciones que ya se realizaban con anterioridad. Los artículos científicos vienen precedidos de un resumen y “palabras clave” que cumplen esa misma función. En este caso, el recuperador de información es el catalogador, que usa esa información para introducirla en una base de datos. En la web son los motores de búsqueda quienes hacen esa tarea automáticamente.

En esta época de incunables web, el marcado de los contenidos hace que la forma de recuperación de información se base en descriptores. Los motores de búsqueda funcionan para poder reconocerlos, recuperarlos y, a partir de ellos, localizar recursos.

Sin embargo, existe un cierto solapamiento entre los conceptos de descriptores, palabras clave y etiquetas (tags). Desempolvando mis apuntes de indización, obtengo lo siguiente:

  • Palabras clave: Colección no ordenada (sólo alfabéticamente) de palabras significativas (no vacías), extraídas de forma automática por el ordenador, a partir del título, resumen y cada vez más a menudo del texto.
  • Descriptores: Colección no ordenada (sino puesta por orden alfabético) de conceptos. Pueden partir de una lista cerrada a priori (controlados) o no (libres).
  • Etiqueta [wikipedia]: elemento que se adhiere a otro elemento para identificarlo o describirlo (*); por extensión, una etiqueta también puede ser una o más palabras que se asocian a algo con el mismo fin (**).

* Un ejemplo es la etiqueta de un lenguaje de marcado.
** Descriptores de recursos: las famosas tags de la Web 2.0.

De aquí extraigo varias conclusiones:

  1. Los descriptores son conceptos, mientras que las etiquetas son elementos formados por descriptores que se unen a los recursos para identificarlos.
  2. Lo que el motor de búsqueda extrae del contenido existente entre las metaetiquetas de marcado son palabras clave, pero lo que introduce el usuario son descriptores, que pueden, a su vez, servir para etiquetar otros recursos.
  3. En xml, el nombre de toda etiqueta de marcado es un metadescriptor de contenido.
  4. Una nube de tags es..en realidad depende! La herramienta de ZoomClouds es una lista de palabras clave (se analizan los textos completos). Sin embargo, la herramienta proporcionada por Technorati es una lista de descriptores (recoge las etiquetas que yo asigno y las ordena por frecuencia). La nube entera es una etiqueta para el blog.
  5. Las palabras clave que suelen preceder a un artículo científico son en realidad descriptores si no hay ningún proceso automático para la extracción de dichos términos del documento.

…y es que en el fondo seguimos con los mismos problemas: perfeccionamiento y comprensión de los lenguajes documentales. Ellos son los verdaderos pilares de la futura Web.

¿Desean los documentalistas seguir siendo sus responsables o estamos escurriendo el bulto?

Por cierto, tengo que arreglar mi nube de tags…quiero decir, de palabras clave…