El aprendizaje automático es una de las nuevas aplicaciones del big data. La base del emprendimiento comercial es la información. Esto no ha cambiado. Era así para los mercaderes sumerios hace muchos siglos y también hace solo uno, cuando Frederick Taylor realizó sus estudios sobre tiempos de ejecución y movimientos en las empresas de Estados Unidos.
Los detractores pueden pensar que el debate actual sobre los big data no es más que la prolongación del pasado, pero se equivocan igual que si dijeran que una tableta informática viene a ser lo mismo que una tablilla de piedra, o que la web es la continuación lógica de la paloma mensajera, o que el ábaco es algo parecido a una supercomputadora. Estas afirmaciones no estarían por completo encaminadas, pero sí lo bastante como para constituir una distracción inútil.
Aprendizaje automático
Lo importante de los big data es que nos permiten desarrollar cosas nuevas. Una de las maneras más prometedoras en las que se pueden usar los datos es el área llamada «aprendizaje automático». Es una rama de la inteligencia artificial, que a su vez lo es de la ciencia informática, pero con una dosis considerable de matemáticas. Explicada con sencillez, consiste en introducir una enorme cantidad de datos en un ordenador y hacer que este identifique patrones que los seres humanos no detectarán, o que tome decisiones basadas en probabilidades a una escala que las personas pueden hacer perfectamente, pero que las máquinas hasta hace poco no podían, y que quizá algún día obtengan a una escala inalcanzable para los humanos.
Básicamente es una forma de lograr que un ordenador desempeñe funciones sin necesidad de enseñarlas explícitamente, consiguiendo que la máquina realice cálculos basados en cantidades masivas de información.
Orígenes
Sus orígenes son bastante recientes. Aunque se concibió por primera vez en la década de 1950, la técnica no funcionaba bien al aplicarse al mundo real. Así que se pensó que era un fracaso. Pero en la última década se ha producido una revolución intelectual y técnica a medida que los investigadores han obtenido prometedores progresos al emplear el aprendizaje automático. Lo que faltaba antes eran datos en cantidades suficientes. Ahora que los hay, el método funciona. Hoy el aprendizaje automático es la base de todo, desde buscadores de internet, recomendaciones de productos online, traducción de lenguaje informático y reconocimiento de voz y muchas otras cosas más.
Para comprender lo que es el aprendizaje automático, resulta útil saber cómo surgió. En la década de 1950, un programador informático de IBM llamado Arthur Samuel programó un ordenador para que jugara al ajedrez. Pero no era un juego muy divertido. Samuel siempre ganaba, porque la máquina únicamente reconocía jugadas legales. Él sabía algo de estrategia, así que desarrolló un subprograma inteligente que, con cada movimiento, calculaba las probabilidades de que una configuración determinada del tablero condujera a ganar o a perder la partida.
Pero una partida entre hombre y máquina seguía sin funcionar bien; el sistema se encontraba en un estado demasiado embrionario. Entonces, Samuel dejó que la máquina jugará contra sí misma. Al hacerlo, recopilar nuevos datos. Al reunir más datos, la exactitud de sus predicciones mejoraba. Así que jugó contra la computadora y perdió. Una y otra vez. El hombre había creado una máquina que le supera en habilidad en una tarea que él mismo le había enseñado.
Los autos no aprendieron a conducir, aprendieron a procesar datos
De igual forma, ¿Por qué tenemos autos que se conducen solos?
¿Acaso a la industria del software se le da mejor incluir todas las normas de circulación en un código? No.
¿Es por el aumento de la memoria de los ordenadores? Tampoco.
¿Procesadores más rápidos? No.
¿Algoritmos más inteligentes? De nuevo, no.
¿Chips más baratos? Tampoco.
Todo esto ayudó, pero lo que de verdad hizo posible la innovación fue que los expertos en tecnología cambiaron la naturaleza del problema. Lo convirtieron en una cuestión de datos: en lugar de intentar enseñar al auto a conducir —algo difícil, porque el mundo es un lugar complejo—, el vehículo recoge todos los datos que lo rodean e intenta deducir él solo lo que tiene que hacer: que hay un semáforo, que está en rojo y no en verde y que esto significa que el coche debe detenerse. El vehículo puede tener que realizar hasta mil predicciones por segundo. El resultado es que se conduce solo. Más datos no significa solo más. Más datos supone que las cosas sean distintas.
La idea del aprendizaje automático ha llevado a una serie de descubrimientos inquietantes que parecen desafiar la primacía del ser humano como herramienta de interpretación del mundo.
Lo que los humanos no ven, los datos lo revelan
En un estudio del año 2011, investigadores de la Universidad de Stanford introdujeron en un algoritmo de aprendizaje automático miles de muestras de células mamarias cancerosas, así como las tasas de supervivencia de las pacientes, y le pidieron al ordenador que identifica los signos que mejor predecían que una biopsia determinada resultara claramente cancerosa.
El ordenador produjo once indicadores que pronosticaban que una biopsia de células mamarias sería positiva.
¿Y cuál era el quid de la cuestión? Que la literatura médica solo había identificado ocho de ellos. Había tres que los patólogos no sabían que debían buscar.
De nuevo, los investigadores no le dijeron al ordenador lo que tenía que analizar. Se limitaron a suministrar las muestras de células, sus características generales y datos sobre los índices de supervivencia de las pacientes (esta sobrevivió quince años al diagnóstico; esta otra murió once meses después).
El ordenador encontró obviedades, pero también otras cuestiones no tan claras: firmas genéticas de la enfermedad que las personas no detectaban porque eran invisibles para el ojo humano. Pero un algoritmo sí las halló. El aprendizaje automático funciona porque se proporciona al ordenador muchos datos, más información de la que sería capaz de digerir un ojo humano en toda su vida, y más también de la que podría recordar de forma instantánea.
En este caso, el rendimiento del ordenador superó al de los humanos. Vio cosas que los especialistas no percibían. Y esto ha propiciado diagnósticos más precisos. Es más, debido a que es un ordenador, puede hacerlo a gran escala. Hasta aquí, el «más» de los big data no significa solo más de lo mismo; significa «mejor». Pero, ¿también «nuevo» y «distinto»? La respuesta es sí.
Pensemos un instante. Utilizando este método a gran escala podríamos ser capaces de interpretar biopsias diarias de una población al completo en lugar de una o varias veces en la vida de cada persona. Al hacerlo quizá detectaremos el aspecto que presenta el cáncer en sus estadios más tempranos, de manera que fuera posible tratarlo con los procedimientos más sencillos, más efectivos y menos costosos. Con ello saldríamos ganando todos: los pacientes, la sociedad y los presupuestos para sanidad de los gobiernos.
¿Por qué es nuevo? Recordemos que el ordenador no solo aumentó la precisión del diagnóstico añadiendo nuevos indicadores. También logró un descubrimiento científico (en este caso, los tres rasgos distintivos obvios de cáncer antes desconocidos eran las relaciones entre células en un material celular llamado estroma y no solo rasgos dentro de las propias células). El ordenador arrojó una conclusión que se les había escapado a los investigadores y que supone un avance para la comprensión humana.
¿Qué significa tener más datos?
Manolis Kellis, investigador genético en el Broad Institute de Cambridge, en Massachusetts, nos ofrece un valioso ejemplo a modo de explicación. Tal y como señalaba un informe de la Casa Blanca de mayo de 2014 sobre los big data:
«Disponer de un gran número de conjuntos de datos supone una ventaja crucial a la hora de identificar la variación genética significativa que determina una enfermedad. En esta investigación, una variante genética relacionada con la esquizofrenia no se constata al analizar 3.500 casos, se detectó débilmente en 10.000, pero se volvió relevante desde el punto de vista estadístico con 35.000 casos».
Y como explicaba Kellis: «Hay un punto de inflexión en el que todo cambia».
La industria médica proporciona otro ejemplo contundente de las repercusiones que van a tener los big data en el sector. Los servicios sanitarios están repletos de ejemplos porque ya poseen gran cantidad de datos y, sin embargo, van un tanto atrasados a la hora de explotar su potencial. Así que, aunque en este ámbito se están produciendo importantes avances, la existencia de leyes restrictivas de privacidad está obstaculizando el proceso.
Pensemos en la manera de identificar una interacción adversa entre medicamentos; es decir, un caso en el que una persona toma dos fármacos que son efectivos y seguros por sí solos, pero que combinados tienen un efecto secundario peligroso. Con cientos de miles de medicamentos en el mercado es un problema difícil de abordar, puesto que es imposible examinar todos juntos. En 2013, Microsoft Research y varias universidades estadounidenses idearon un ingenioso método para reconocer estas sustancias: analizando consultas de búsqueda.
Los investigadores elaboraron una lista de ochenta términos y expresiones asociados a síntomas de una enfermedad conocida, la hiperglucemia (por ejemplo, «nivel alto de azúcar» o «visión borrosa»). Luego, observaron si las personas buscaban el fármaco paroxetina (un antidepresivo) y/u otro fármaco, pravastatina (que reduce los niveles de colesterol). Después de analizar nada menos que ochenta y dos millones de búsquedas a lo largo de varios meses durante 2010, encontraron lo que estaban buscando.
Las consultas para solo los síntomas y ninguno de los fármacos eran extremadamente bajas, de menos del 1%; por tanto, ruido de fondo. Las personas que buscaban los síntomas y uno de los medicamentos suponían el 4%; para los síntomas y el otro fármaco, el 5%. Pero las que buscaban los síntomas y ambos fármacos ascendían a un sorprendente 10%. En otras palabras, había el doble de posibilidades de que las personas teclean determinados síntomas médicos en la ventana de consultas del buscador si estaban buscando también los dos fármacos en lugar de solo uno.
Este descubrimiento es importante. Pero no es una pistola humeante. La policía no puede irrumpir en las casas de los directivos de los laboratorios y llevarlos presos. Es solo una correlación; no revela causalidad. No obstante, los resultados son significativos y tienen considerables consecuencias para los negocios y el valor corporativo. La interacción adversa entre estos dos fármacos no se conocía antes, no venía en el prospecto. Se descubrió analizando viejas búsquedas. Muchas, ochenta y dos millones.
El valor de estos datos es inmenso. Un paciente necesita saber esta información. Un médico quiere conocerla. A un asegurador médico le interesa especialmente. Y un regulador de fármacos la necesita. Quizá, alguien de Microsoft debería empezar a pensar en crear una división para negociar la cesión de datos como nueva fuente de beneficios y no limitarse a los ingresos que genera la publicidad que aparece con los resultados de búsquedas.
El mundo del trabajo
Este nuevo mundo de datos y la manera en que lo aprovechan las empresas choca con dos ámbitos de las políticas y las regulaciones públicas. El primero tiene que ver con los puestos de trabajo. Al principio, los líderes empresariales valoran la necesidad de incorporar nuevas clases de trabajadores a su plantilla.
Es el auge del analista de datos o data scientist. Los asesores advierten gravemente de los peligros de una escasez de estos. Las universidades se apresuran a prepararse para la demanda existente. Pero esta forma de pensar revela poca visión de futuro. A medio y a largo plazo, los big data nos van a arrebatar nuestros puestos de trabajo. La tecnología va a traer consigo una oleada de desempleo estructural.
Esto se debe a que los big data y los algoritmos son la misma amenaza para los trabajadores no manuales y especializados en el siglo XXI que la que supuso la cadena de montaje para los obreros de los siglos XIX y XX.
Entonces, el trabajo físico se consideraba una mercancía y las máquinas podían hacerlo mejor que las personas. En el futuro serán nuestras mentes las que demostrarán ser inferiores a las máquinas. Un estudio realizado por investigadores de la Universidad de Oxford predice que hasta el 47% del trabajo que se realiza hoy en Estados Unidos corre el riesgo de ser asumido por ordenadores.
Pensemos, por ejemplo, en el anatomopatólogo cuyo trabajo ya no es necesario porque un algoritmo de aprendizaje automático puede interpretar biopsias cancerosas con mayor precisión, velocidad y a un costo menor. Los anatomopatólogos suelen ser titulados en Medicina. Se compran casas. Pagan impuestos. Votan. Entrenan al equipo de fútbol de sus hijos los fines de semana. En otras palabras, son participantes activos de la sociedad. Y, junto con una clase entera de profesionales como ellos, van a asistir a la transformación, o incluso quizá a la completa eliminación, de sus puestos de trabajo.
La parte positiva es que los big data aportará grandes beneficios a la sociedad.
El peligro es que todos terminemos convertidos en profesores de yoga o camareros al servicio de un pequeño grupo de ingenieros informáticos millonarios. Nos gusta pensar que la tecnología genera empleo, incluso si esto sucede después de un periodo de trastocamiento transitorio. Desde luego que ocurrió así con la disrupción ocasionada por nuestra principal referencia, la revolución industrial, cuando las máquinas sustituyeron la mano de obra artesana. Las ciudades se llenaron de fábricas y los trabajadores agrícolas, pobres y sin educación, pudieron —una vez creadas las leyes laborales y el sistema educativo— mejorar su nivel de vida y disfrutar de movilidad social. Sin duda, fue un periodo de transformaciones traumáticas, pero que con el tiempo condujo a mejoras en la calidad de vida.
Sin embargo, esta extrapolación optimista pasa por alto el hecho de que algunos puestos de trabajo desaparecerán para no volver.
Tal y como observó el economista y premio Nobel estadounidense Wassily Leontief, para los caballos la revolución industrial no fue precisamente una buena noticia. Es decir, que una vez que se introdujeron los tractores en las faenas agrícolas y los automóviles sustituyeron a los coches de caballos, básicamente estos animales dejaron de ser necesarios para la economía. Todavía se pueden apreciar las trazas de aquel cambio en las antiguas cocheras que abundan en el próspero West End londinense y que han sido convertidas en elegantes residencias.
La agitación que trajo consigo la revolución industrial generó revoluciones políticas que inspiraron nuevas teorías económicas y nuevos movimientos políticos como el marxismo.
No hace falta ser un intelectual para predecir que surgirán nuevas filosofías políticas y nuevos movimientos sociales alrededor de los big data, los robots, los ordenadores e internet y sus efectos en la economía y en la democracia representativa. Los recientes debates sobre la desigualdad de rentas y los movimientos como Occupy Wall Street parecen apuntar en esa dirección.
Privacidad
El segundo ámbito a legislar es la privacidad, que ya constituía un problema en la era de los «pequeños datos». Y lo será en la de los grandes.
A primera vista puede que no parezca en esencia un problema distinto, sino el mismo a gran escala. Pero aquí también, más significa distinto. La naturaleza de proteger la información personal cambia cuando la amenaza potencial para la privacidad no se produce una vez al día o una cada hora, sino mil por segundo. O cuando la recopilación de datos no se realiza por vías explícitas y activas, sino de manera invisible y pasiva, como consecuencia de otro servicio.
Así, por ejemplo, los sitios web en Europa están obligados a informar a quienes entran en ellos que utilizan cookies para identificar a los visitantes. Un requerimiento que, a simple vista, parece razonable. Pero ¿qué ocurre cuando cada punto de luz de un edificio identifica que hay una persona en la habitación por motivos de seguridad o protección? Como en el caso de un incendio, para que los bomberos sepan adónde tienen que acudir.
Y el software, con un costo marginal de casi cero, es lo bastante avanzado como para identificar dónde están esas personas basándose en su silueta, su manera de andar o incluso también el pulso sanguíneo. Es difícil imaginar cómo las leyes clásicas sobre la privacidad gestionan un mundo así; cómo podrá una persona que se sienta tratada de manera injusta tomar medidas, o siquiera ser consciente de la situación.
Y todavía hay más. Las leyes sobre la privacidad en todo el mundo se basan en el principio, recogido por las directrices sobre privacidad de la OCDE, de que una entidad se deshará de los datos una vez que los ha usado para el propósito con el que los recopiló. Pero la utilidad de los big data pasa precisamente por guardarlos para siempre, puesto que nunca se sabe qué valiosos fines se les podrá otorgar el día de mañana. Si Microsoft hubiera borrado sus antiguas búsquedas de 2010, no habría sido capaz de identificar la interacción adversa entre la paroxetina y la pravastatina en 2013.
Por lo tanto, al igual que lo que define los big data es que más no es solo más, sino nuevo, mejor y distinto, los negocios modernos necesitarán reguladores que comprendan que las reglas que gobiernan los big data no pueden ser simplemente más de lo mismo. De hecho, las regulaciones actuales hacen poco por proteger la privacidad, así que continuar con medidas igualmente mediocres no parece tener demasiado sentido. En lugar de ello, el negocio de big data está pidiendo a gritos regulaciones nuevas, mejores y distintas.
Los big data cambiarán los negocios y los negocios la sociedad
La esperanza es que los beneficios superen las consecuencias negativas, pero no es más que eso, una esperanza. La realidad es que todo esto es muy nuevo y que a nosotros, como sociedad, no se nos da demasiado bien gestionar todos los datos que tenemos capacidad de recopilar. No hace tanto tiempo, en la Exposición Mundial de Chicago de 1893, se concedió la Medalla de Oro al inventor del armario archivador vertical, por aquel entonces una solución brillante al problema de almacenaje y localización de documentos en papel. Eran tiempos en los que el flujo de información sobrepasaba a las empresas, la «versión beta» de los big data en la vida corporativa actual.
Lo que está claro es que estos ejemplos pasados no nos sirven para predecir el futuro. La tecnología nos sorprende igual que a un hombre con un ábaco le asombrará un iPhone. Lo que es seguro es que más no será sólo más. Será distinto.
Fuente: Kenneth Cukier Director de la revista The Economist, BBVA Openmind, Reinventar la empresa en la era digital.
Adaptado por la División consultoría de EvaluandoSoftware.com