Big Data: cómo está ocurriendo la revolución de los datos ocultos y los secretos más Ãntimos
Nuestras fantasÃas sexuales, las probabilidades en las carreras de caballos y los pronósticos más fiables de las elecciones presidenciales,
Asà como la máquina de vapor y el ferrocarril marcaron el detonante de la primera revolución industrial, en nuestros tiempos la computadora se ha convertido en sÃmbolo de una etapa histórica tan abarcativa y transformadora que una sola palabra no ha sido suficiente para describirla. Hablamos de la revolución tecnológica, digital y de la era de la información para referirnos a distintos movimientos y transiciones, pero los tres términos remiten a una época actual cuyo exponente puede identificarse con la invención de la computadora y el desarrollo del Internet.
Nos encontramos en la segunda etapa de la revolución porque esta tecnologÃa, que ha sido marcada por hitos históricos como el desarrollo de ARPANET en 1969 y el del World Wide Web en 1989, ha iniciado un proceso de nuevos descubrimientos que prometen cambiar todos los aspectos de nuestra vida diaria.
Asà como la máquina de vapor fue la tecnologÃa detrás del ferrocarril, cada vez más expertos concuerdan que la tecnologÃa detrás de la moneda virtual Bitcoin –blockchain– con el tiempo modificará el funcionamiento del Internet asà como el automóvil revolucionó el transporte y sustituyó al ferrocarril en el siglo XX. Una dinámica similar también se desenvuelve con la robótica, que hasta ahora ha sido fundamental para el progreso de varias industrias pero que en los próximos años, con el continuo avance de la inteligencia artificial, probablemente seamos testigos de la emigración de los robots desde las fábricas y los laboratorios cientÃficos a nuestro mundo cotidiano.
Otro componente esencial de esta revolución es el progresivo avance en el campo de la información en forma de Big Data. En una columna de opinión para este portal, Mario Bolo, director adjunto del Departamento de IngenierÃa Informática del ITBA (Instituto Tecnológico de Buenos Aires), define Big Data como el conjunto de datos e información "que existen en el mundo o los que se crean diariamente".
"Big Data significa todos los datos, en todas sus formas, que incluyen no sólo los datos tradicionales sino también correos electrónicos, comentarios en redes sociales, fotos, audio y video, datos de instrumentos y sensores, y hasta el tono emocional de una comunicación verbal o escrita. Pero Big Data es más: también incluye el variado conjunto de tecnologÃas que permiten analizar esos datos", precisa Bolo.
En su libro "Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are" (Todos mienten: Big Data, nueva data y lo que Internet puede decirnos sobre quiénes realmente somos), Seth Stephens-Davidowitzargumenta que Big Data está convirtiendo a las ciencias sociales en una verdadera ciencia, "y esta nueva y verdadera ciencia está preparada para mejorar nuestras vidas".
"Estoy ahora convencido de que las búsquedas en Google son el conjunto de datos más importante jamás recopilado sobre la psiquis humana", dice Stephens-Davidowitz, un cientÃfico de datos que trabajó como analista cuantitativo en Google y actualmente es columnista para el periódico estadounidense The New York Times.
Asà como Bitcoin es la primera aplicación práctica de la revolucionaria tecnologÃa blockchain, la herramienta de búsqueda Google Trends introdujo al mundo por primera vez un método eficiente de analizar parte del gran universo que es Big Data. "Google Trends, una herramienta lanzada con poca fanfarria en 2009, informa a los usuarios con que frecuencia una palabra o frase ha sido buscada en diferentes lugares y en diferentes momentos", explica el cientÃfico.
"En aquel momento, los datos de búsqueda de Google no parecÃan ser una fuente de información adecuada para una investigación académica 'seria'. A diferencia de las encuestas, los datos de búsqueda de Google no fueron creados para ayudarnos a entender la psiquis humana. Google se inventó para que la gente pudiera aprender sobre el mundo, no para que los investigadores pudieran aprender sobre las personas", escribe en la introducción de su libro.
"Pero resulta que los rastros que dejamos mientras buscamos conocimiento en Internet son tremendamente reveladores. En otras palabras, la búsqueda de información es, en sà misma, información", agrega.
Veamos algunos ejemplos.
¿Qué fantasÃas y disfunciones sexuales busca la gente en Internet?
Las búsquedas de pornografÃa revelan sorprendentes proclividades sexuales de las personas
Una de las grandes ventajas de algunas fuentes de Big Data como el buscador de Google es que, al ser herramientas impersonales que se pueden utilizar en anonimato, suelen funcionar como un confesionario al que muchas personas recurren para expresar lo que no quieren o pueden admitir en público. "El poder de los datos de Google es que la gente le dice a los grandes buscadores cosas que no le dirÃan a nadie más", advierte Stephens-Davidowitz.
No es el caso de las redes sociales como Facebook, Twitter e Instagram, -otra gran fuente de Big Data-, ya que, al ser plataformas que uno utiliza para relacionarse con la sociedad, existe un incentivo para mostrarse de una manera que uno realmente no es. "No hay manera de que todos sean tan exitosos, ricos, atractivos, relajados, intelectuales y alegres como aparentan ser en Facebook", afirmó Stephens-Davidowitz en una de sus columnas para el periódico neoyorquino.
Si utilizamos los datos presuntamente honestos de buscadores como Google y aprovechamos la transparencia con la cual podemos acceder a ellos, podemos descubrir comportamientos, deseos o preocupaciones que quizá nunca consideramos como caracterÃsticas generales de los seres humanos. Por ejemplo, si buscamos la expresión "mi esposo quiere…" en Google Trends, descubrimos que en India, la búsqueda más común con esta fórmula es "mi esposo quiere que lo amamante".
De hecho, las búsquedas pornográficas de imágenes de mujeres que amamantan a los hombres son cuatro veces más altas en la India y en Bangladesh que en cualquier otro paÃs del mundo, una observación que quizá nunca hubiésemos registrado sin que los datos de Google la saquen a la luz.
Otra observación: mientras que los hombres inundan a Google con consultas sobre el tamaño de sus penes, la mayor inseguridad corporal de las mujeres, según el buscador, es el olor de su vagina. De hecho, las mujeres tienen casi tantas preguntas sobre sus vaginas como los hombres sobre sus penes. Quieren saber cómo afeitarla, apretarla y hacer que su sabor sea mejor. El olor de su vagina es realmente una inquietud seria: algunas de las búsquedas de Google más frecuentes se preocupan que sus vaginas huelen a pescado, seguido por vinagre, cebolla, amonÃaco, ajo, queso, olor corporal, orina, pan, blanqueador, heces fecales, sudor, metal, pies, basura y carne podrida.
¿TenÃa razón Sigmund Freud?
Como advertimos al principio de esta nota, Stephens-Davidowitz sostiene que una de las grandes ventajas de Big Data es que puede convertir a las ciencias sociales en una verdadera ciencia. Es decir, puede producir conocimiento susceptible a la experimentación y a la prueba con datos concretos.
Cuando las teorÃas de Freud atrajeron por primera vez a la atención pública, muchos intelectuales se preguntaron si sus hipótesis podÃan ser demostradas. Frente a esta incógnita, el gran filósofo Karl Popper se inclinaba a decir que no: las teorÃas de Freud simplemente no eran falsificables; no habÃa forma de probar si eran verdaderas o falsas.
Aunque en sus investigaciones el analista cuantitativo refuta algunas de las teorÃas freudianas, uno de sus descubrimientos más alarmantes fue que un impactante número de personas que visitan los principales sitios pornográficos buscan satisfacer sus fantasÃas incestuosas.
De las cien búsquedas más populares por hombres en PornHub, uno de los sitios pornográficos más populares, dieciséis de ellas buscan videos de incesto, como "hermano y hermana", "madre e hijo" y "hermana y hermano verdadero". Por su parte, nueve de las principales cien búsquedas por mujeres en el mismo sitio buscan la misma temática, como "padre e hija".
En Google Trends, de todas las búsquedas que comienzan con el formato "quiero tener sexo con mi…" o "estoy atraÃdo a mi…", la forma más común de completar la frase incluye la palabra "mamá".
Podemos concluir, -quizá definitivamente-, entonces, que al menos un tenue eco del Complejo de Edipo de Freud forma parte de la psicologÃa humana.
¿Podemos apostar al ganador en una carrera de caballos gracias a Big Data?
En 2013, un empresario cervecero egipcio llamado Ahmed Zayat viajó a Nueva York para participar en un remate de 151 caballos en el cual pretendÃa vender un animal propio y comprar algunos más. Para ello contrató a una pequeña firma de expertos, EQB, cuyo director, Jeff Seder, no era un hombre de campo con años de experiencia sino un graduado de Harvard nacido en Filadelfia.
Durante dos dÃas, los expertos analizaron a todos los caballos del remate con la intención de seleccionar a cuatro o cinco para reemplazar al de Zayat, el número 85.
Sin embargo, los expertos regresaron con una recomendación inesperada: "No podemos cumplir con su petición", dijeron. "Simplemente no puedes vender el caballo número 85. Venda su casa, pero no venda este caballo".
Con poco entusiasmo, el caballo número 85 fue comprado por USD 300.000 por un tal "Incardo Bloodstock". Bloodstock, se reveló después, era un pseudónimo utilizado por Zayat, quién por reglas que no permitÃan retirar a "número 85" del remate, compró su propio caballo en un acto casi sin precedentes.
Lo bautizó con el nombre "American Pharoah". Dieciocho meses después, en 2015, se convirtió en el primer caballo en más de tres décadas en ganar la Triple Corona.
¿Qué sabÃa Jeff Seder sobre el caballo número 85 que nadie más sabÃa?
Luego de años de investigar cómo predecir el éxito de un caballo con datos que exceden el pedigrà del animal, Seder decidió medir el tamaño de los órganos internos de los caballos.
Entonces, descubrió una correlación asombrosa: encontró que el tamaño del corazón, y en particular el tamaño del ventrÃculo izquierdo, era un predictor sumamente efectivo para medir el éxito de un caballo. También notó que otra variable importante era el tamaño del bazo: los caballos con bazo pequeño no ganaban prácticamente nada.
Cuando Seder analizó a American Pharoah, parecÃa ser un caballo normal. En su primer año de vida, registraba una altura dentro del percentil 56, un peso de percentil 61 y un pedigrà de percentil 70.
¿Pero su ventrÃculo izquierdo? Percentil 99,61. ¿Qué más? El resto de sus órganos, incluyendo su corazón y el bazo, también eran extraordinariamente grandes. American Pharoah era un caballo único.
Como demuestra está experiencia, cuando analizamos Big Data no es tan importante identificar la explicación detrás de nuestras observaciones (Seder no podÃa explicar exactamente por qué el ventrÃculo izquierdo es tan importante para predecir el éxito del caballo), sino percibir que cierta correlación efectivamente existe y funciona en el mundo real.
