Máster Calsi

10 mayo 2008

Nº 13. Fin de InfoCalsi

El pasado 4 de noviembre comenzó la andadura de InfoCalsi, blog creado a partir de los trabajos de ciertas asignaturas del Master Calsi. Los objetivos que me propuse fueron tratar al blog como tipología documental y divagar en relación a diferentes aspectos de interés para los documentalistas, a la vez que aprendía el uso de todas estas nuevas herramientas de edición y recuperación de contenidos.

Los problemas de mantenimiento de blogs han sido ya reiteradamente expuestos y analizados por otros compañeros: falta de tiempo, de temas sobre los que hablar, pérdida de la ilusión inicial, etc. Además, creo firmemente que los blogs, como tantas otras cosas en la vida, deben tener un objetivo, pasado el cual, ya no tienen sentido, al menos en la forma actual.

Este blog nació como trabajo de clase. Las asignaturas por las cuales nació InfoCalsi ya han sido superadas y, por tanto, el blog ha cumplido el cometido por el que fue creado.

La creación y mantenimiento de un blog temático es algo que no descarto en el futuro pero, desde luego, no con el modelo y cobertura temática de InfoCalsi, esa es la razón principal por la cual creo que debo darle fin. Además, en su número 13, para tentar a la suerte.

Una de las conclusiones comentadas el último día de clase fue clara, los blogs de los alumnos debían tener una doble funcionalidad: por una parte aprender a manejarlos y, por otra, usarlos como herramienta de comunicación entre nosotros. La primera función la hemos aprobado todos, pero la segunda, claramente no.

En muchas ocasiones se ha utilizado el blog como herramienta para expresar nuestras dudas o inquietudes, pero sin ánimo de entablar conversación. Sin duda es una lección que deberé tener en cuenta.

Ya sólo me queda dar las gracias a todas aquellas personas que me hayan leído durante estos meses y pedir disculpas por el tiempo transcurrido desde la publicación del nº 12 hasta hoy.

Durante estos meses, sobre todo los dos primeros, viví unos momentos muy felices al comprobar cómo personalidades de la biblioblogsfera a los que admiraba, como Catuxa Seoane, Javier Leiva, Daniel Gil, Lara Rey…, me nombraban o dejaban algún que otro comentario en mi modesto blog. Muchas gracias a todos!

También me gustaría dar especialmente las gracias a Álvaro Cabezas por todos sus comentarios y ánimos y desearle suerte en su tesis, algo que yo espero comenzar en breve y en el que tengo puestas muchas ilusiones.

Espero que el futuro me permita conoceros a todos en persona. Nunca un blog podrá sustituir a un apretón de manos. Hasta ese momento:


UN ABRAZO, GRACIAS Y HASTA PRONTO!

03 febrero 2008

Nº 12. ¿Quién es quien?

Todo aquel incauto que haya llegado hasta aquí, pensará que yo soy Enrique. Los que me conocen no lo dudarán, los que no, gracias al perfil de usuario, lo creerán más o menos.

Pero, ¿y si no fuera Enrique?, podría ser Ramón, o incluso Laura, ¿estarían seguros?

Podría ser un mero invitado a este blog que no hubiese usado el necesario protocolo de presentación, o un cracker desocupado, pero ¿quién?

Lo más atrevido para eliminar incertidumbre sería el método que utiliza, entre otros, technorati, cuando una persona desea reclamar la autoría de un blog.

Al introducir unos datos de contacto, el sistema te proporciona un mensaje que debes insertar en el blog. De esta forma el sistema sabe –y ni siquiera es seguro- que la persona que reclama el blog es la misma que tiene acceso al mismo, pero nada más. Nada impide llamarme de otra forma.

Comprobando los datos del dueño de una cuenta de correo llegaríamos a la misma conclusión. Se podría conocer quién es el dueño de una dirección de correo, pero podría haber mentido en su nombre. Nada de eso asegura la identificación.

La identificación de las personas no es algo privativo de la era de la Web, ¿quién podría afirmar que el autor de un artículo en papel es quien dice ser?

Lo único que podría identificarme (dejando de lado la usurpación de este sitio por parte de informáticos ociosos) sería la firma digital.

La firma digital se instala en el ordenador y con ella puedes firmar correos electrónicos, realizar diversas transacciones con la Administración y firmar documentos.

En el Master Calsi, de hecho, hemos firmado documentos en Word y PDF mediante la firma digital.

Puesto que los profesores nos piden que, además de explayarnos mentalmente, usemos la bitácora para comunicar dudas, preguntas, etc. Yo tengo una:

¿Se puede usar la firma digital para firmar un blog, o una entrada concreta?

Yo, de momento, no lo sé. Creo que esto es un tema interesante de debate. Puede que en este blog no sea importante quién sea pero es algo que la 'Science 2.0' y 'Open access 2.0' sí debería, por ser tecnológicamente posible, resolver.

26 enero 2008

Nº 11. El responsable de la Información


Aunque se salga algo de la temática de Infocalsi, no me he podido resistir. Ayer se publicó la siguiente reseña cinematográfica, escrita por Juan Lacasa, en el semanario La Cartelera, núm. 896, pág. 9, publicado por el periódico Levante-emv:

Fuente: La Cartelera, Levante-emv

La bajada de la noticia (metadatos para los humanos) dice:

“Dejando de lado su parte más gamberra, el popular Álex de la Iglesia ha realizado un thriller convencional de consumo rápido, con una trama enrevesada y llena de altibajos”.

Mientras que, en el último párrafo de la noticia, se lee:

“…aunque muchos esperábamos más de esta cinta, tampoco nos encontramos ante el típico y manido thriller convencional de consumo rápido y digestión difícil”.

Seguramente no habrá sido el autor el responsable de la bajada y no estará muy contento, pues las personas que, a falta de tiempo, sólo hayan leído este resumen, pensarán que ha dicho algo que no ha dicho.

Más allá de la anécdota, esta nota me sirve para reflexionar; me pregunto cuántos fallos de este tipo (no sólo gramaticales, que ya es una batalla perdida) pasarán desapercibidos en semanarios, dominicales, prensa, etc. No sé si me asusta más que no lo hayan revisado o que sí lo hayan hecho.

Se podrá argüir que es un error sin importancia y puede que tengan razón, pero yo me pregunto, si los ingenieros y arquitectos (por ejemplo) tienen una responsabilidad ante los fallos de sus diseños y ésta se les exige, ¿qué ocurre con la responsabilidad de los profesionales cuya materia prima de trabajo es la información y la palabra?

Creo que el problema está en que, si el trabajo está bien hecho, se dice que se crea patrimonio cultural (en un sentido estricto, pues se suele separar la ciencia de la cultura, cuando en realidad la ciencia es una parte más de la cultura) y, si está mal hecho, pues que tampoco pasa nada, que no es importante, que no es para tanto.

Puede que la Web semántica deba nacer primero en nosotros mismos...

20 enero 2008

Nº 10. Etiquetas, descriptores y palabras clave

Los blogs, como cualquier otra tipología documental, deben ser descritos de alguna forma para poder elaborar catálogos que nos informen tanto de su existencia como de los contenidos que albergan, ahorrándonos la terrible y angustiosa tarea de consultar la web a ciegas.

La construcción de estos catálogos de blogs precisa de una recuperación previa de los mismos y de una descripción documental. Estos procesos pueden ser automáticos, manuales o mixtos. Dada la imposibilidad a día de hoy de conseguir automatismo y fiabilidad, parece que el combinado es el menos malo.

La descripción manual de recursos web ha sido tradicionalmente un criterio usado para otorgar prestigio a los contenidos reunidos (Intute, Infomine, Librarian’s Internet Index, etc.) y, por ello, restringido generalmente a contenido científico –donde el prestigio del contenido se valora-.

Estos directorios están destinados a proporcionar coberturas limitadas y sesgadas, ya existentes en los directorios impresos, pero ahora acentuadas al máximo, debido al frenético incremento e inestabilidad de los recursos web. Pensemos no sólo en la eliminación o falta de actualización de recursos, sino en qué ocurre cuando éstos son citados y posteriormente sus contenidos son modificados.

Dado que la existencia de un grupo de personas que evalúen manualmente los contenidos de los blogs es algo difícil y limitado, los creadores, junto a los contenidos de sus blogs, introducen información estructurada especialmente para que pueda ser recuperada automáticamente y describa, entre otras cosas, “aquello de lo que trata” el blog.

Esta información estructurada, en su visión más general, son los lenguajes de marcado y, en su más específica –de momento-, los microformatos, pasando por un intermedio que son los metadatos de descripción.

Esto no es nada nuevo, pues muchas de las operaciones de recuperación de información en web son calcos conceptuales de operaciones que ya se realizaban con anterioridad. Los artículos científicos vienen precedidos de un resumen y “palabras clave” que cumplen esa misma función. En este caso, el recuperador de información es el catalogador, que usa esa información para introducirla en una base de datos. En la web son los motores de búsqueda quienes hacen esa tarea automáticamente.

En esta época de incunables web, el marcado de los contenidos hace que la forma de recuperación de información se base en descriptores. Los motores de búsqueda funcionan para poder reconocerlos, recuperarlos y, a partir de ellos, localizar recursos.

Sin embargo, existe un cierto solapamiento entre los conceptos de descriptores, palabras clave y etiquetas (tags). Desempolvando mis apuntes de indización, obtengo lo siguiente:

  • Palabras clave: Colección no ordenada (sólo alfabéticamente) de palabras significativas (no vacías), extraídas de forma automática por el ordenador, a partir del título, resumen y cada vez más a menudo del texto.
  • Descriptores: Colección no ordenada (sino puesta por orden alfabético) de conceptos. Pueden partir de una lista cerrada a priori (controlados) o no (libres).
  • Etiqueta [wikipedia]: elemento que se adhiere a otro elemento para identificarlo o describirlo (*); por extensión, una etiqueta también puede ser una o más palabras que se asocian a algo con el mismo fin (**).

* Un ejemplo es la etiqueta de un lenguaje de marcado.
** Descriptores de recursos: las famosas tags de la Web 2.0.

De aquí extraigo varias conclusiones:

  1. Los descriptores son conceptos, mientras que las etiquetas son elementos formados por descriptores que se unen a los recursos para identificarlos.
  2. Lo que el motor de búsqueda extrae del contenido existente entre las metaetiquetas de marcado son palabras clave, pero lo que introduce el usuario son descriptores, que pueden, a su vez, servir para etiquetar otros recursos.
  3. En xml, el nombre de toda etiqueta de marcado es un metadescriptor de contenido.
  4. Una nube de tags es..en realidad depende! La herramienta de ZoomClouds es una lista de palabras clave (se analizan los textos completos). Sin embargo, la herramienta proporcionada por Technorati es una lista de descriptores (recoge las etiquetas que yo asigno y las ordena por frecuencia). La nube entera es una etiqueta para el blog.
  5. Las palabras clave que suelen preceder a un artículo científico son en realidad descriptores si no hay ningún proceso automático para la extracción de dichos términos del documento.

…y es que en el fondo seguimos con los mismos problemas: perfeccionamiento y comprensión de los lenguajes documentales. Ellos son los verdaderos pilares de la futura Web.

¿Desean los documentalistas seguir siendo sus responsables o estamos escurriendo el bulto?

Por cierto, tengo que arreglar mi nube de tags…quiero decir, de palabras clave…

12 enero 2008

Nº 9. La Web 3.0: los pilares de la Web ∞.∞ (v.β)

Puesto que despedí el año preguntando si en 2008 me encontraría con la Web 3.0, lo justo es comenzar el año nuevo con ella.

David Maniega nos pidió un doble trabajo: reflexionar acerca de la llamada Web 3.0 y, de paso, practicar la redacción de contenidos tomando como base el post de Hebe Bravo “La Web 3.0, añade significado”.

El siguiente texto es, pues, un resumen de aquél organizado bajo mi punto de vista, que espero que sirva para plasmar de forma sencilla qué es lo que se está cocinando en los hornos de la Web ∞.∞ (v.β).



Cuando todavía no se ha incorporado el cambio de actitud que implica la Web 2.0, ya se habla de Web 3.0 como de una realidad inminente que promete transformar, no sólo nuestra experiencia web, sino toda nuestra cotidianidad pero, ¿qué es la Web 3.0?

El desarrollador Andrés Richero define así las diferentes fases de la Web:

  • Web 1.0 - Personas conectándose a la Web.
  • Web 2.0 - Personas conectándose a personas.
  • Web 3.0 - Aplicaciones web conectándose a aplicaciones web.

Aunque se coincide en que esta última etapa añadirá significado a la web, ni existe consenso acerca de lo que significa Web 3.0 (término “abstracto”, según José Antonio del Moral) ni sobre cuáles son los caminos más apropiados para su desarrollo.

Salvador Pérez Crespo -Telefónica- considera que será una revolución si se logra una combinación efectiva entre la inclusión de contenido semántico en las páginas web y el uso de Inteligencia Artificial que saque partido de ella.

Como los avances en esta disciplina son demasiado lentos y dificultosos, la solución podría estar en la combinación de las técnicas de Inteligencia Artificial con el acceso a la capacidad humana de realizar tareas extremadamente complejas para un ordenador. Ejemplos de ello son Mechanical Turk de Amazon y Google Image Labeler.

En cualquier caso, el aumento de la interactividad y de la movilidad serán factores decisivos en esta nueva etapa de la web. Por ello, en torno a la definición de Web 3.0 comienzan a aparecer proyectos que tienden a una cada vez mayor y más eficiente incorporación de la web a la cotidianidad:

la Web 3.0 se concibe como un nivel a ser alcanzado en mayor o menor plazo, mientras que la Web Semántica es un proceso evolutivo en construcción permanente

a) Web 3D

Muchos la ven como una extensión de los mundos virtuales (Second Life o There.com). Se cree que en el futuro la web será una gran alternativa al mundo real donde se podrá recorrer el planeta a través de ella sin abandonar el escritorio.

b) La Web centrada en multimedia

Web que ofrecerá búsquedas por similitudes en la multimedia (imágenes, música y vídeos) con sólo mostrar al buscador el medio de referencia.

La compañía Polar Rose, entre otras, están trabajando en estos proyectos.

c) La Web permanente

La también llamada Web omnipresente (o pervasive web) es un concepto que se ha extendido a partir del pasaje de los PC a los teléfonos celulares y PDA. Es una web que está en todas partes, no sólo en el PC o celular sino en la ropa, joyas, automóviles, etc.

¿Es la Web Semántica sinónimo de Web 3.0?

No, aunque muchas veces estos términos son empleados como tales. Quizás la principal diferencia sea que la Web 3.0 se concibe como un nivel a ser alcanzado en mayor o menor plazo, mientras que la Web Semántica es un proceso evolutivo en construcción permanente, de forma que ya estamos inmersos en ella.

Berners-Lee señala que, quizás, debería haberla llamado ‘Web de los datos’, dado que la palabra semántica es utilizada para significar diferentes cosas.

Se trataría de una web capaz de interpretar e interconectar un número mayor de datos que, diseñada correctamente, podría asistir a la evolución del conocimiento humano, permitiendo su avance en infinidad de campos, como la investigación genética, el tratamiento farmacológico de enfermedades, etc.

Esta visión del Web semántico como substrato para la inteligencia colectiva fue tratada por Tom Gruber en la 5ª Conferencia Internacional de la Web Semántica, donde consideró que la idea popular que tiende a considerar la Web Semántica y la Web Social como dos mundos con ideologías alternativas y en oposición es falsa y absurda.

La implementación del modelo

La Web alcanzará su capacidad máxima, tal como anticipaban Berners-Lee y Eric Molinero, cuando se convierta en un ambiente donde los datos puedan ser compartidos y procesados tanto por las herramientas automatizadas como por la gente.

Así pues, el primer desafío de la Web Semántica es proporcionar una lengua que exprese los datos, unas reglas para razonar sobre éstos y, además, permitir que éstas sean exportadas sobre el Web. Para ello es necesaria la definición de estándares:

  • URI (Uniform Resource Identifier): la base de la web semántica.
  • XML (Extensible Markup Language): el fundamento sintáctico.
  • RDF (Resource Description Framework): la descripción del recurso.
  • OWL (Ontology Web Language): la función y relación de cada componente.

Establecidos los estándares, Berners-Lee cree que los nuevos desafíos deberán ser tratados en términos de utilidad y accesibilidad, por ello, el punto clave de la Web Semántica estará en su potencial para las nuevas aplicaciones de datos sobre el web y en la capacidad de generar búsquedas más precisas e “inteligentes”.

Algunos creen que eso será el fin de los grandes buscadores. Según Nicholas Carr, la Web 3.0 “convertirá en obsoletos a los buscadores de hoy”.

Sin embargo, Berners-Lee opina que el hecho de que se agregue algo no quiere decir que se esté sustituyendo. Del mismo modo, los motores de búsqueda podrán evolucionar y hacerse Web semántico-compatibles, en la medida en que los usuarios lo exijan.

Dificultades para su generalización

  1. Complejidad: la sintaxis RDF/XML no es muy fácil de leer: Berners-Lee conviene en ello, aunque cree que no debería ser una complicación ya que al tratarse de sistemas de escritura de datos, la codificación semántica podrá ser totalmente automatizada.

  2. Actitud: el desarrollo e implementación de la Web 3.0 (al igual que la Web 2.0) será en gran parte una cuestión de actitud.

  3. Trabajo: exige una completa reanotación de la web, como indica Mª Jesús Lamarca. Por ello, otros investigadores están construyendo nuevos agentes para que puedan entender mejor la web tal como está hoy en día. Las páginas web ya tienen información semántica y estos agentes –microformatos- tratan de entenderla, como los humanos.

  4. Compartición de información: Según Pérez Crespo, habrá una fuerte reacción de quienes ahora disponen de la información, que no querrán compartirla.

  5. Spam semántico: la hará poco utilizable.

  6. Uso de estándares semánticos y confiables: que las personas e instituciones los usen es algo prácticamente imposible, según Ricardo Baeza-Yates.

  7. Privacidad: fuerte oposición entre sus defensores.

Algunos proyectos que anticipan el modelo de la Web 3.0

  • RadarNetworks: busca explotar el contenido suministrado por los usuarios en las redes sociales.
  • Proyecto KnowItAll: desarrollado en la Universidad de Washington y financiado por Google. Busca obtener y agregar información de usuarios de productos.
  • Powerset y TextDigger: Trabajan en buscadores web semánticos basados en el proyecto académico open source WordNet.
  • BlueOrganizer: construcción de agentes más inteligentes.
  • Parakey: proyecto que persigue la idea de unificar el escritorio y la web, a partir de la creación de una especie de sistema operativo web.

Mis conclusiones

Es curioso cómo, cada vez que se hablan de evoluciones y cambios, éstos se centran en procesos y acciones y no en recursos y contenidos.

La web 3.0 intentará marcar más inteligentemente los contenidos para que sean más fácilmente recuperables (o que las máquinas sean más inteligentes y sepan marcar ellos mismos los contenidos), pero sobre los contenidos en sí mismos no se habla mucho.

Puede que la Web 3.0 cree metadatos perfectos que marquen los contenidos o agentes que entiendan perfectamente los metadatos de los contenidos, pero

¿nos ocupamos lo suficiente de pensar quién se ocupará de crear los contenidos perfectos?

¿Será la propia Web ∞.∞ (v.β) capaz de crearlos?

En ese caso sólo nos dedicaríamos a buscar y recuperar. Bueno, entonces puede que no hubiese mucha diferencia con nuestros hábitos actuales, ahora que pienso..