La voz de la ciencia
27jun/130

Big Numbers, Big Data

Blade RunnerLa capacidad del hombre para inventar cosas es sin duda una de las claves de la evolución humana. Nos ha permitido ser la especie dominante del planeta y, por qué no decirlo, llegar al punto de tener en nuestras manos la propia destrucción del mismo. Sin embargo el paso trascendental que nos ha permitido acelerar nuestra evolución como especie es la capacidad de abstraer, es decir aislar conceptualmente una propiedad concreta de un objeto o conjunto de objetos.

Quizás la abstracción más importante de la historia de la humanidad es el concepto de número que surge de la necesidad de contar cosas físicas y comparar cantidades de las mismas. A partir los números se construye la catedral de las matemáticas y en el proceso de construcción también se producen a su vez hitos que llevan al hombre a plantearse la existencia de cosas que no se pueden tocar físicamente. Me refiero, por ejemplo, a los números negativos, por mucho que la crisis nos haga pensar lo contrario, “deberle 10€ a alguien” no es algo tangible como si lo es “darle 10€ a alguien” (aunque ambas acciones tiene un efecto real sobre nuestras vidas) o a los conceptos de “cero” e “infinito”. El edificio de las matemáticas modernas, que sostienen la mayoría del conocimiento científico y técnico, está construido sobre estos conceptos abstractos. Sabemos que las primeras referencias al “cero” y los números negativos aparecen en la india con Bramagupta (598-660) y que el símbolo de infinito es introducido por John Wallis (1655-1705) pero que fue Georg Cantor (1845-1918) quién define, categoriza y perfecciona el concepto en su Teoría de Conjuntos además de demostrar que no todos los conjuntos infinitos tienen el mismo tamaño y que, por tanto, existen diversos infinitos. Lo realmente fascinante es que la mente humana, incapaz para manejar conjuntos muy grandes de datos, pueda imaginar y sintetizar conceptos como el infinito y diseñar sistemas artificiales, (“extensiones” electrónicas de la mente biológica) que puedan tratar estos conjuntos.

Centrémonos en los conjuntos infinitos. Para la mayoría de los mortales lo muy grande ha sido tradicionalmente sinónimo de lo infinito: las estrellas del cielo, los granos de arena de las playas, los copos de nieve que caen en una tormenta. Sin embargo  ahora para nosotros los hombres-máquina, los ciborgs, infinito es aquello que no podemos computar. Esta es la clave, computar. La capacidad de computo nos permite representar, analizar y extraer conclusiones sobre estructura y comportamiento de conjuntos muy, muy grandes y, lo más importante, a gran velocidad. Esta capacidad de computar volúmenes brutales de datos es lo que el marketing de tecnología llama “Big Data”. En esta presentación podemos comparar en orden de magnitud las unidades de información con otras conocidas de longitud mediante objetos asociados a ambas.

¿Cómo se genera tal cantidad de información? Las fuentes son muy diversas, en algunos casos se diseñan dispositivos “ad-hoc” que envían gran cantidad de información en bruto, este sería el caso de los sensores de acelerador de partículas de CERN (a razón de 1 PetaByte por minuto) o de la red mundial de estaciones y satélites meteorológicos. Otra fuente posible son los dispositivos de  propósito general continuamente conectados (“la llamada Internet de las cosas”) por ejemplo todos los teléfonos móviles del mundo pueden ser localizados geográficamente y seguidos en tiempo real ya que están continuamente interactuando con las antenas de telefonía y pueden ser identificados unívocamente por ese número esotérico denominado IMEI. Sin embargo lo más importante es que analizando conjuntos muy grandes de datos podemos obtener otros conjuntos todavía relativamente grandes, sobre los que de nuevo podemos aplicar algoritmos y modelos que nos permiten exprimir de nuevo los datos para obtener más información, en un proceso iterativo como si de cribar la arena de un rio en busca de oro se tratara.

¿Cómo es posible computar estos conjuntos enormes de datos? La respuesta está en La ley de Moore, esa ley empírica que dice: “cada dos años se duplica el número de transistores de un circuito integrado”. Esta ley se ha cumplido de manera inexorable durante los últimos 25 años, la eficiencia y velocidad de los procesadores no para de crecer, con la última arquitectura de 22 nanometros se puede ordenar 1 Terabyte de datos en 7 minutos. Ha sido una larga historia de éxitos la del chip de silicio, pero llega a su fin. El límite de este material está en los 14 nanometros y será alcanzado en 2014 según estimaciones del gigante INTEL. La mayor incógnita del “Big Data” en los próximos años será si las nuevas tecnologías de proceso, como los ordenadores cuánticos, serán capaces de tomar el relevo al silicio de manera inmediata y poco disruptiva en cuanto a la propia arquitectura del procesador. Lo que está claro es que cada vez dispondremos de más datos que procesar y si la capacidad de proceso no evoluciona a un ritmo adecuado nos estancaremos en un mar de datos de los que será imposible extraer más información.

Como podemos ver hay tres ingredientes principales en “Big Data”: muchos datos, mucha capacidad de proceso y buenos algoritmos de tratamiento y búsqueda. Los dos primeros ingredientes son relativamente fáciles de obtener, el tercero es el factor diferencial. Las aproximaciones para implementar los algoritmos de búsqueda son diversas: En algunos casos se opta por soluciones propietarias muy pegadas a la máquina como es el caso de los sistemas MPP (Massively Parallel Processing)  en los cuales los datos se particionan entre múltiples servidores o nodos cada uno de ellos con capacidad de memoria para procesar su parte de los datos localmente, todos los nodos se “hablan” vía red y no comparten datos sobre soportes mecánicos como discos duros (EMC Greenplum, IBM Netezza, HP Vertica, Oracle Exadata, SAP Hana, etc.) en otros casos se opta por “frameworks” de propósito general para almacenamiento distribuido que se pueden implementar sobre máquinas relativamente estándar y baratas (Hadoop, HPCC Systems, etc) y por último existen tecnologías que se centran el almacenamiento de datos en formato no SQL (Standard Query Language) las llamadas NoSQL (Not only SQL) por ejemplo Cassandra, MongoDB, etc. Pero independientemente de cómo se implemente el algoritmo el arte está en el propio algoritmo en sí, como en el caso de Google. El algoritmo de búsqueda es a Google lo que “el ingrediente secreto” a Coca-Cola.

En este punto entran en escena un nuevo término de marketing tecnológico: “Data Analytics”. Para muestra un botón: veamos esto en acción en http://books.google.com/ngrams. Esta aplicación on-line nos indica la frecuencia de aparición de determinadas palabras o frases (los llamados n-gramas) en los cinco millones de libros de los últimos quinientos años digitalizados por Google. Una búsqueda como: “Aviador Dro,Cyborg” nos dará, de manera casi exacta, la fecha de aparición en escena del grupo musical de los 80 y del concepto de hombre-máquina. Google utiliza un sistema como este a este para generar las sugerencias de lectura del Google books. Los algoritmos son el arte matemático del “Big Data”. La generación, almacenamiento y proceso de los datos son problemas principalmente de ingeniería (muy bella, pero ingeniería al fin y al cabo). El algoritmo pone la inteligencia, supone elevar a la máquina a un plano metafísico, dotándola de algo que, con el tiempo, podremos denominar inteligencia y que nos llevará sin duda a problemas morales como los que se plantean en la película “Blade Runner”.

http://www.flickr.com/photos/89085862@N08/9123472573/

No sabemos cuánto quedará para alcanzar el punto en el que nuestra capacidad de extraer inteligencia instantánea del “Big Data” sea tal que acerque el comportamiento de las máquinas al de los humanos, con ritmo frenético que llevamos es difícil de decir, en todo caso es una verdadera revolución y estamos inmersos en ella casi sin darnos cuenta. El “Big Data” se convertirá en los próximos años en una extensión global de la mente humana, nos permitirá de manera instantánea acceder por internet no solo a datos estáticos, como actualmente, sino que podremos hacer “preguntas” en tiempo real cuya respuesta implicará el análisis y la sumarización de cantidades pseudo-infinitas de datos. Los últimos y espectaculares hallazgos de la física como el Bosón de Higgs no serían posibles sin el “Big Data”, la secuenciación del genoma hubiera sido también una entelequia, estamos rompiendo barreras hasta ahora insalvables. Pero cuidado: el “Big Data” también pone al alcance de los Gobiernos del siglo XXI una capacidad de control sobre nuestras vidas sin parangón en la historia de la humanidad. La democratización del acceso a los datos, a la capacidad de cómputo y a los algoritmos es imprescindible para asegurarnos que todas estas herramientas están disponibles para todos y que todos podremos beneficiarnos de ellas, sin injerencias interesadas de uno u otro signo.

Desde que unos locos matemáticos imaginaron la nada y el infinito hasta que otros, más locos, intentan construir ambas cosas solo han pasado 5 Exabytes que son todas las palabras pronunciadas por todos los hombres que han existido.

Juan Carlos Sánchez Soto

 

Publicado por JUAN CARLOS SANCHEZ SOTO

Comentarios (0) Trackbacks (0)

Aún no hay comentarios.


Deja tu comentario

Aún no hay trackbacks.