Política

Big Data: cÃ³mo estÃ¡ ocurriendo la revoluciÃ³n de los datos ocultos y los secretos mÃ¡s Ãntimos

Nuestras fantasÃas sexuales, las probabilidades en las carreras de caballos y los pronÃ³sticos mÃ¡s fiables de las elecciones presidenciales,

Nov 20, 2017

0 97

AsÃ como la mÃ¡quina de vapor y el ferrocarril marcaron el detonante de la primera revoluciÃ³n industrial, en nuestros tiempos la computadora se ha convertido en sÃmbolo de una etapa histÃ³rica tan abarcativa y transformadora que una sola palabra no ha sido suficiente para describirla. Hablamos de la revoluciÃ³n tecnolÃ³gica, digital y de la era de la informaciÃ³n para referirnos a distintos movimientos y transiciones, pero los tres tÃ©rminos remiten a una Ã©poca actual cuyo exponente puede identificarse con la invenciÃ³n de la computadora y el desarrollo del Internet.

Nos encontramos en la segunda etapa de la revoluciÃ³n porque esta tecnologÃa, que ha sido marcada por hitos histÃ³ricos como el desarrollo de ARPANET en 1969 y el del World Wide Web en 1989, ha iniciado un proceso de nuevos descubrimientos que prometen cambiar todos los aspectos de nuestra vida diaria.

AsÃ como la mÃ¡quina de vapor fue la tecnologÃa detrÃ¡s del ferrocarril, cada vez mÃ¡s expertos concuerdan que la tecnologÃa detrÃ¡s de la moneda virtual Bitcoin â€“blockchainâ€“ con el tiempo modificarÃ¡ el funcionamiento del Internet asÃ como el automÃ³vil revolucionÃ³ el transporte y sustituyÃ³ al ferrocarril en el siglo XX. Una dinÃ¡mica similar tambiÃ©n se desenvuelve con la robÃ³tica, que hasta ahora ha sido fundamental para el progreso de varias industrias pero que en los prÃ³ximos aÃ±os, con el continuo avance de la inteligencia artificial, probablemente seamos testigos de la emigraciÃ³n de los robots desde las fÃ¡bricas y los laboratorios cientÃficos a nuestro mundo cotidiano.

Otro componente esencial de esta revoluciÃ³n es el progresivo avance en el campo de la informaciÃ³n en forma de Big Data. En una columna de opiniÃ³n para este portal, Mario Bolo, director adjunto del Departamento de IngenierÃa InformÃ¡tica del ITBA (Instituto TecnolÃ³gico de Buenos Aires), define Big Data como el conjunto de datos e informaciÃ³n "que existen en el mundo o los que se crean diariamente".

"Big Data significa todos los datos, en todas sus formas, que incluyen no sÃ³lo los datos tradicionales sino tambiÃ©n correos electrÃ³nicos, comentarios en redes sociales, fotos, audio y video, datos de instrumentos y sensores, y hasta el tono emocional de una comunicaciÃ³n verbal o escrita. Pero Big Data es mÃ¡s: tambiÃ©n incluye el variado conjunto de tecnologÃas que permiten analizar esos datos", precisa Bolo.

En su libro "Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are" (Todos mienten: Big Data, nueva data y lo que Internet puede decirnos sobre quiÃ©nes realmente somos), Seth Stephens-Davidowitzargumenta que Big Data estÃ¡ convirtiendo a las ciencias sociales en una verdadera ciencia, "y esta nueva y verdadera ciencia estÃ¡ preparada para mejorar nuestras vidas".

"Estoy ahora convencido de que las bÃºsquedas en Google son el conjunto de datos mÃ¡s importante jamÃ¡s recopilado sobre la psiquis humana", dice Stephens-Davidowitz, un cientÃfico de datos que trabajÃ³ como analista cuantitativo en Google y actualmente es columnista para el periÃ³dico estadounidense The New York Times.

AsÃ como Bitcoin es la primera aplicaciÃ³n prÃ¡ctica de la revolucionaria tecnologÃa blockchain, la herramienta de bÃºsqueda Google Trends introdujo al mundo por primera vez un mÃ©todo eficiente de analizar parte del gran universo que es Big Data. "Google Trends, una herramienta lanzada con poca fanfarria en 2009, informa a los usuarios con que frecuencia una palabra o frase ha sido buscada en diferentes lugares y en diferentes momentos", explica el cientÃfico.

"En aquel momento, los datos de bÃºsqueda de Google no parecÃan ser una fuente de informaciÃ³n adecuada para una investigaciÃ³n acadÃ©mica 'seria'. A diferencia de las encuestas, los datos de bÃºsqueda de Google no fueron creados para ayudarnos a entender la psiquis humana. Google se inventÃ³ para que la gente pudiera aprender sobre el mundo, no para que los investigadores pudieran aprender sobre las personas", escribe en la introducciÃ³n de su libro.

"Pero resulta que los rastros que dejamos mientras buscamos conocimiento en Internet son tremendamente reveladores. En otras palabras, la bÃºsqueda de informaciÃ³n es, en sÃ misma, informaciÃ³n", agrega.

Veamos algunos ejemplos.

Â¿QuÃ© fantasÃas y disfunciones sexuales busca la gente en Internet?

Las bÃºsquedas de pornografÃa revelan sorprendentes proclividades sexuales de las personas

Una de las grandes ventajas de algunas fuentes de Big Data como el buscador de Google es que, al ser herramientas impersonales que se pueden utilizar en anonimato, suelen funcionar como un confesionario al que muchas personas recurren para expresar lo que no quieren o pueden admitir en pÃºblico. "El poder de los datos de Google es que la gente le dice a los grandes buscadores cosas que no le dirÃan a nadie mÃ¡s", advierte Stephens-Davidowitz.

No es el caso de las redes sociales como Facebook, Twitter e Instagram, -otra gran fuente de Big Data-, ya que, al ser plataformas que uno utiliza para relacionarse con la sociedad, existe un incentivo para mostrarse de una manera que uno realmente no es. "No hay manera de que todos sean tan exitosos, ricos, atractivos, relajados, intelectuales y alegres como aparentan ser en Facebook", afirmÃ³ Stephens-Davidowitz en una de sus columnas para el periÃ³dico neoyorquino.

Si utilizamos los datos presuntamente honestos de buscadores como Google y aprovechamos la transparencia con la cual podemos acceder a ellos, podemos descubrir comportamientos, deseos o preocupaciones que quizÃ¡ nunca consideramos como caracterÃsticas generales de los seres humanos. Por ejemplo, si buscamos la expresiÃ³n "mi esposo quiereâ€¦" en Google Trends, descubrimos que en India, la bÃºsqueda mÃ¡s comÃºn con esta fÃ³rmula es "mi esposo quiere que lo amamante".

De hecho, las bÃºsquedas pornogrÃ¡ficas de imÃ¡genes de mujeres que amamantan a los hombres son cuatro veces mÃ¡s altas en la India y en Bangladesh que en cualquier otro paÃs del mundo, una observaciÃ³n que quizÃ¡ nunca hubiÃ©semos registrado sin que los datos de Google la saquen a la luz.

Otra observaciÃ³n: mientras que los hombres inundan a Google con consultas sobre el tamaÃ±o de sus penes, la mayor inseguridad corporal de las mujeres, segÃºn el buscador, es el olor de su vagina. De hecho, las mujeres tienen casi tantas preguntas sobre sus vaginas como los hombres sobre sus penes. Quieren saber cÃ³mo afeitarla, apretarla y hacer que su sabor sea mejor. El olor de su vagina es realmente una inquietud seria: algunas de las bÃºsquedas de Google mÃ¡s frecuentes se preocupan que sus vaginas huelen a pescado, seguido por vinagre, cebolla, amonÃaco, ajo, queso, olor corporal, orina, pan, blanqueador, heces fecales, sudor, metal, pies, basura y carne podrida.

Â¿TenÃa razÃ³n Sigmund Freud?

Como advertimos al principio de esta nota, Stephens-Davidowitz sostiene que una de las grandes ventajas de Big Data es que puede convertir a las ciencias sociales en una verdadera ciencia. Es decir, puede producir conocimiento susceptible a la experimentaciÃ³n y a la prueba con datos concretos.

Cuando las teorÃas de Freud atrajeron por primera vez a la atenciÃ³n pÃºblica, muchos intelectuales se preguntaron si sus hipÃ³tesis podÃan ser demostradas. Frente a esta incÃ³gnita, el gran filÃ³sofo Karl Popper se inclinaba a decir que no: las teorÃas de Freud simplemente no eran falsificables; no habÃa forma de probar si eran verdaderas o falsas.

Aunque en sus investigaciones el analista cuantitativo refuta algunas de las teorÃas freudianas, uno de sus descubrimientos mÃ¡s alarmantes fue que un impactante nÃºmero de personas que visitan los principales sitios pornogrÃ¡ficos buscan satisfacer sus fantasÃas incestuosas.

De las cien bÃºsquedas mÃ¡s populares por hombres en PornHub, uno de los sitios pornogrÃ¡ficos mÃ¡s populares, diecisÃ©is de ellas buscan videos de incesto, como "hermano y hermana", "madre e hijo" y "hermana y hermano verdadero". Por su parte, nueve de las principales cien bÃºsquedas por mujeres en el mismo sitio buscan la misma temÃ¡tica, como "padre e hija".

En Google Trends, de todas las bÃºsquedas que comienzan con el formato "quiero tener sexo con miâ€¦" o "estoy atraÃdo a miâ€¦", la forma mÃ¡s comÃºn de completar la frase incluye la palabra "mamÃ¡".

Podemos concluir, -quizÃ¡ definitivamente-, entonces, que al menos un tenue eco del Complejo de Edipo de Freud forma parte de la psicologÃa humana.

Â¿Podemos apostar al ganador en una carrera de caballos gracias a Big Data?

En 2013, un empresario cervecero egipcio llamado Ahmed Zayat viajÃ³ a Nueva York para participar en un remate de 151 caballos en el cual pretendÃa vender un animal propio y comprar algunos mÃ¡s. Para ello contratÃ³ a una pequeÃ±a firma de expertos, EQB, cuyo director, Jeff Seder, no era un hombre de campo con aÃ±os de experiencia sino un graduado de Harvard nacido en Filadelfia.

Durante dos dÃas, los expertos analizaron a todos los caballos del remate con la intenciÃ³n de seleccionar a cuatro o cinco para reemplazar al de Zayat, el nÃºmero 85.

Sin embargo, los expertos regresaron con una recomendaciÃ³n inesperada: "No podemos cumplir con su peticiÃ³n", dijeron. "Simplemente no puedes vender el caballo nÃºmero 85. Venda su casa, pero no venda este caballo".

Con poco entusiasmo, el caballo nÃºmero 85 fue comprado por USD 300.000 por un tal "Incardo Bloodstock". Bloodstock, se revelÃ³ despuÃ©s, era un pseudÃ³nimo utilizado por Zayat, quiÃ©n por reglas que no permitÃan retirar a "nÃºmero 85" del remate, comprÃ³ su propio caballo en un acto casi sin precedentes.

Lo bautizÃ³ con el nombre "American Pharoah". Dieciocho meses despuÃ©s, en 2015, se convirtiÃ³ en el primer caballo en mÃ¡s de tres dÃ©cadas en ganar la Triple Corona.

Luego de aÃ±os de investigar cÃ³mo predecir el Ã©xito de un caballo con datos que exceden el pedigrÃ del animal, Seder decidiÃ³ medir el tamaÃ±o de los Ã³rganos internos de los caballos.

Entonces, descubriÃ³ una correlaciÃ³n asombrosa: encontrÃ³ que el tamaÃ±o del corazÃ³n, y en particular el tamaÃ±o del ventrÃculo izquierdo, era un predictor sumamente efectivo para medir el Ã©xito de un caballo. TambiÃ©n notÃ³ que otra variable importante era el tamaÃ±o del bazo: los caballos con bazo pequeÃ±o no ganaban prÃ¡cticamente nada.

Cuando Seder analizÃ³ a American Pharoah, parecÃa ser un caballo normal. En su primer aÃ±o de vida, registraba una altura dentro del percentil 56, un peso de percentil 61 y un pedigrÃ de percentil 70.

Â¿Pero su ventrÃculo izquierdo? Percentil 99,61. Â¿QuÃ© mÃ¡s? El resto de sus Ã³rganos, incluyendo su corazÃ³n y el bazo, tambiÃ©n eran extraordinariamente grandes. American Pharoah era un caballo Ãºnico.

Como demuestra estÃ¡ experiencia, cuando analizamos Big Data no es tan importante identificar la explicaciÃ³n detrÃ¡s de nuestras observaciones (Seder no podÃa explicar exactamente por quÃ© el ventrÃculo izquierdo es tan importante para predecir el Ã©xito del caballo), sino percibir que cierta correlaciÃ³n efectivamente existe y funciona en el mundo real.