Inicio

viernes, 29 de mayo de 2009

Microsoft dice "Bing"

Hablamos hace unas semanas de Kumo, el nuevo buscador semántico de Microsoft. Al parecer el nombre no ha acabado de convencer y la aplicación se presentará el 3 de Junio como "Bing" (en Europa con funcionalidades limitadas).

Microsoft ha publicado horas los detalles y algunas fotos del motor, y un vídeo explicativo. El motor se basa en un nuevo principio: ofrecer información de utilidad inmediata para las necesidades prácticas: según los términos introducidos por el usuario Bing "entiende" el contexto de búsqueda y proporciona información relacionada. Por ejemplo? Introducimos el nombre de una localidad turística Bing nos pide si queremos ver fotos u obtener información sobre hoteles. Además, en contraste con la gráfica escueta de Google, Bing tiene varias secciones (Salud, Turismo, Deporte..) en las cuales el usuario puede navegar a la búsqueda de la información que necesita.
La batalla de los buscadores se mueve hacía las búsquedas inteligentes. No nos queda que esperar al día del lanzamiento y ver como reaccionan los internáutas más expertos y el gran público.
Reblog this post [with Zemanta]

viernes, 22 de mayo de 2009

Destripando Wolfram Alpha

Hace unos días se presentó Wolfram Alpha. Para el que todavía no lo sepa se trata de un "computational knowledge engine" que en castellano viene a ser "motor de computación de conocimiento". Esto quiere decir que es un buscador de información, una máquina que opera con muchísima información para poder ofrecer respuestas. Informan con cierto secretismo que utilizan "un nuevo tipo de computación basada en el conocimiento". El proyecto es muy ambicioso y tienen la bondadosa intención de...

"Our goal is to build on the achievements of science and other systematizations of knowledge to provide a single source that can be relied on by everyone for definitive answers to factual queries."

conseguir ser la gran fuente de información que sea capaz de mostrar los logros de la ciencia en base a las  preguntas de los usuarios.  "Recabar toda la información objetiva, método o algoritmo y hacerla computable".

Internamente está basado en Mathematica, software longevo (más de 20 años) de desarrollo matemático bastante conocido en el ámbito académico y cuando se realizó la release el servidor de clustering contaba con más de 10.000cores. Toda una start-up.

Desde el punto de vista de la web semántica suena muy interesante y hasta cierto punto llama la atención que en este mundillo no se haya comentado nada hasta hace unos días. Las reacciones no se han dejado esperar, hay quien ve una lucha entre el "mundo abierto" que promulga la Web Semántica y este tipo de soluciones basadas en modelos cerrados y alejados de los estándares, ontologías, descripciones de vocabularios. 

Tras someterle a una batería de pruebas [1], llegamos a varias conclusiones interesantes.
  • Wolfram Alpha responde preguntas con respuestas únicas y concretas. Primer distanciamiento con Google.
  • La respuesta contiene información en sí misma (respuestas concretas, gráficas, etc...) y no páginas con información relativa. Por lo tanto, Wolfram Alpha no es un buscador tradicional, del estilo Google o yahoo!. 
  • Entiende lenguaje natural. Este aspecto resulta muy llamativo, pero no han sido los primeros en llevar a cabo una idea así, de hecho recuerdo que iSOCO llevo a cabo una herramienta que entendía el languaje natural hace algunos años.  Aquí cabe una matización: qué entienda lenguaje natural no significa que sólo entienda lenguaje natural. Esta reflexión es muy importante desde el punto de vista de que no han cometido el error de exigir un cambio en el paradigma de búsqueda por todos estandarizado. Se ve claro con el ejemplo 1 y 2 de la batería de pruebas. 
  • La información viene supervisada por un "comité de sabios", esto nos valdría para decir que no es una aplicación 2.0.  En Wolfram Alpha la colaboración del usuario se límita a un feedback a modo de comentario sobre el resultado de la entrada. Han vendido esta obligada supervisión como una clave de su excelencia, exactamente la misma excelencia que busca la wikipedia con la solución contraria. ¡Qué curioso!
  • Ofrecen un API bastante interesante aunque todavía bastante primigenio. El API es unidireccional, sólo se envían datos. Ofrece dos grandes líneas de trabajo: la función Query que responde tus preguntas y la funciónValidateQuery que estudia la validez de tus preguntas. Afortunadamente comentan que pronto ofrecerán un API más potente, más de "bajo nivel". 
  • Está sólo en inglés. La salida ha sido en inglés y no he leído nada al respecto de internacionarlo, supongo que es demasiado pronto todavía, aunque tras ver la respuesta que da a la pregunta número 8 ya no me extraña nada en este mundo. No me quiero ni imaginar cómo van a hacer para internacionalizar el sistema de reconocimiento del lenguaje natural. Todo un reto increíble. 
  • No es semántico. Aunque muchas páginas digan que sí lo es. Basta el ejemplo 7 para demostrar esta afirmación. La web semántica se basa en que la información esté descentralizada y compartida en la nube, al alcance de todos. Wolfram alpha es simplemente lo contrario, la información tiene un ámbito cerrado.
    Si alguno tiene dudas, utilizando psicología inversa, podríamos afirmar que si fueran semántico, hubieran  habilitado en su api o en su versión de pago algún formato de intercambio semántico.  Se han limitado a PDF, hojas de cálculo, XML, 3D modeling, TeX... Está claro que intercambiar información en XML es una aproximación que posibilita acceder a esa información de manera semántica de forma quasi-inmediata, pero aun así, la respuesta es: Wolfram Alpha no es semántico. Toda una lástima, por cierto.
    Espero que la gente de LOD (Linking Open Data) se pongan manos a la obras a crear sinergias con el señor Wolfram.
    Voy a ver si hablo con un antiguo profesor, podría plantearse un buen proyecto final de carrera en esta dirección... ¿algún voluntario?
  • Ámbito académico y educacional. Exactamente lo que no tiene la Wikipedia. La rigurosidad de su política de actualización de información y la calidad de las respuestas dentro del ámbito científico hacen de él un producto excepcional, sin embargo, me gustaría saber qué frecuencia de actualización van a llevar, ahí va a ser difícil competir con la wikipedia. 
    Espero que los responsables en educación y la comunidad cientifica tomen definitivamente nota.


¿Cuándo veremos páginas que utilicen este conjunto de datos de manera útil para el usuario final?


[1] Batería 

1. Big City

http://www19.wolframalpha.com/input/?i=big+city

2. What is the biggest city?

http://www04.wolframalpha.com/input/?i=What+is+the+biggest+city%3F

3. A room of one's own (libro de Virginia Woolf)

http://www01.wolframalpha.com/input/?i=A+room+of+one's+own

4. Cuando libros ha escrito Michael Crichton?

http://www04.wolframalpha.com/input/?i=How+many+books+did+Michael+Crichton+write%3F

5. Michael Crichton

http://www04.wolframalpha.com/input/?i=Michael+Crichton

6. What is Nato?

http://www04.wolframalpha.com/input/?i=What+is+NATO%3F

7. What is RDF?

http://www19.wolframalpha.com/input/?i=what+is+rdf%3F

8.  Blowind in the wind

http://www96.wolframalpha.com/input/?i=How+many+roads+must+a+man+walk+down+before+you+can+call+him+a+man%3F


David Canós

martes, 12 de mayo de 2009

Wolfram Alpha

Cuando un equipo quiere ganar en campeonato de fórmula uno pero otros tienen coches más fiables y más experiencia que tú, te queda la opción de hacer mucho ruido para que otros cometan un error o al menos se pongan nerviosos. Puedes anunciar que tu coche tiene algo muy innovador que te hará correr el doble que otros. En el mercado IT, especialmente en el de los buscadores pasa un poco parecido. Es un mercado está madurando en los últimos años, fruto de compras por parte de Autonomy, Microsoft o Google, ya se están dibujando algunos ganadores. Aunque existe todavía una pequeña ventana de tiempo que permitirá estar entre los mejores, pero es a cambio de aportar algo muy innovador y convincente. Y eso muchos lo intentan, pero solo pocos lo van a conseguir.

Después del intento del buscador de Wikipedia y PowerSet, ahora es el turno de Wolfram Alpha que se ha dedicado a mover ficha en dos direcciones. Primero en mejorar la experiencia de usuario entendiendo preguntas en lenguaje natural y segundo asegurando la calidad del contenido donde todo está verificado por expertos. Dos ejes donde los grandes, como Google, tienen sus flaquezas.
En cuanto al primer punto, Wolfram no son ni los primeros ni los últimos en anunciar un sistema que entiende el lenguaje natural. El problema que todos han visto es sobre tipo de lenguaje entiende una maquina. Es muy difícil decir: "si hablas de esta forma, la maquina te entenderá", y eso nos lleva al método de prueba y error y finalmente a la frustración. Tal vez en el futuro exista una Real Academia de la Lengua de las Máquinas, que nos digan cómo hablar con las tostadoras.

En segundo eje es un propósito noble: asegurar la calidad de la información, a modo de enciclopedia. En plena era Web 2.0 y estándares semánticos no parece un método escalable, pero seguro que la calidad es del más alto nivel.

Estos dos puntos están muy ligados, de manera cuanto más amplio es el contenido posible, ya sea científico o la wikipedia al completo, más difícil se le hace entender para un ordenador. La tendencia actual de algunas empresas innovadoras en el campo de gestión inteligente de contenidos apunta hacia la creación de agentes especializados que entiendan nuestros deseos en campos muy concretos y nos representen en la nueva Web, la Web 3.0.

Declaración de parcialidad

Los autores de este blog nos declaramos potencialmente bastante parciales en nuestras valoraciones y juicos. Todos somos empleados de una compañia (isoco) que se posiciona en la Web 3.0 y eso con toda seguridad puede constituir sospechas razonables de parcialidad.