Hubert Krivine
¿Es inteligente la inteligencia artificial?
El ámbito de la inteligencia
artificial (IA) es un poco como el Universo: se halla en expansión acelerada y
llena de agujeros negros… La IA es una disciplina totalmente nueva, como lo fue
en su tiempo la imprenta a mediados del siglo XV. ¿Quién habría podido
anticipar entonces que su desarrollo iría mucho más allá de su propósito
inicial, a saber, la propagación de las sagradas escrituras? Más recientemente,
¿quién habría podido imaginar las consecuencias de internet, creada
originalmente para facilitar los intercambios entre físicos de laboratorios
alejados entre sí? Por consiguiente, hay que ser extremadamente prudentes con
respecto a las potencialidades de la IA, sobre todo porque, a diferencia de
esas dos innovaciones, no se sabe por qué funciona tan bien. Al fin y al
cabo, el nombre es jactancioso: la inteligencia artificial no es a la
inteligencia humana lo que la insulina artificial es a la insulina animal, es
decir –potencialmente al menos–, lo mismo pero mejor.
No pretendemos hablar aquí de los
éxitos y los peligros de la IA en todos los terrenos, sino fundamentalmente de
lo que nos parecen ser sus limitaciones actuales. Es evidente que ignoramos lo
que vaya a suceder en los próximos siglos.
Comprender para prever
La humanidad tiene desde siempre
la necesidad de prever. Lo ha hecho a través de la magia (auspicios, augurios y
pitonisas) o bien mediante la observación de correlaciones regulares. Se
trataba de la previsión del movimiento de los astros, de las mareas, de la
acción medicamentosa de determinadas plantas, de las propiedades de las
aleaciones metálicas, de las ventajas del cruce de plantas y de animales, etc.
De ahí la importancia de la tradición en las sociedades primitivas.
En el Renacimiento surgió la idea
de que existen leyes impersonales y universales que gobiernan el mundo y que la
tarea de los sabios es descubrirlas. Galileo, quien afirmaba que el “libro del
Universo está escrito en lengua matemática”, es su precursor más famoso. Claro
que Dios no es abandonado, digamos más bien que relegado. Estas leyes no solo
explicarán los fenómenos observados, sino que también preverán otros
nuevos. La teoría de la gravitación de Newton es emblemática: no solo dio
cuenta con precisión del movimiento elíptico de los planetas, sino que además
previó el retorno del cometa Halley, el valor del ensanchamiento de la Tierra
en el ecuador y un siglo y medio después el descubrimiento de Neptuno gracias a
los cálculos de Le Verrier. Las ondas de radio se descubrirán veinte años
después de que hubieran sido previstas por las ecuaciones de Maxwell. La teoría
general de la relatividad no se basó en la observación de que la presencia de
masas desvía la trayectoria de la luz, sino, por el contrario, previó esta
(minúscula) desviación, que Eddington medirá efectivamente cuatro años más
tarde. Podríamos multiplicar las previsiones de fenómenos inéditos, en el
sentido literal del término, causados por el conocimiento de estas leyes.
Por desgracia, esta vía luminosa
de entendimiento, que podríamos resumir en comprender para prever,
acabará oscureciéndose por (al menos) dos razones:
1- Aunque se conozcan las leyes
de un fenómeno, estas pueden ser tan numerosas y/o complicadas e intrincadas
que su aplicación resulte prácticamente imposible. Entonces hay que recurrir a
leyes estadísticas, que solo preverán medias.
2- Puede ocurrir que una sola ley
simple y bien conocida gobierne un fenómeno y que a pesar de ello seamos
incapaces de anticipar más allá de cierto horizonte de tiempo. Esto es lo que
se denomina caos determinista. Determinista porque hay una ley, caos
porque a pesar de ello no se puede concluir nada para dentro de cierto plazo.
Se debe al hecho de que pequeñísimas variaciones de las condiciones iniciales o
del entorno pueden generar una divergencia exponencial de las soluciones.
Muchos fenómenos conocen este caos: las trayectorias de las moléculas de un
gas, el desarrollo de especies en competición, la meteorología, el movimiento
de los planetas del sistema solar. Por supuesto, este horizonte de
impredecibilidad depende del sistema, puede variar de la millonésima de segundo
en el primer ejemplo a los miles de millones de años en el último.
El caos determinista –bello
oxímoron– no pone en duda la causalidad, sino que interroga, inclusive en las
llamadas ciencias duras, nuestra capacidad de evidenciarla. La
conclusión general es que la comprensión –e incluso el conocimiento de la ley
cuando se conoce– no permite necesariamente prever.
Prever sin comprender (¿el
retorno?)
Nuestros ancestros, sobre la base
de miles (¿millones?) de observaciones, conseguían extraer algunas lecciones.
Pero ahora disponemos de infinitivamente más datos (en cifras, imágenes,
sonidos, vídeos); son los datos masivos (big data). Se trata de
cantidades inimaginables: por ejemplo, cada día se generan ¡2,5 trillones
(2.500.000.000.000.000.000) de octetos! 1/.
Añadamos que la acumulación de informaciones es tal que el 90 % de los
datos en el mundo se han creado en el transcurso de tan solo los dos últimos
años. Es imposible que estas inmensas bases de datos sean leídas directamente
por personas. Deben ser almacenadas inteligentemente y después
analizadas por la máquina. Este es uno de los objetos de la mal llamada inteligencia
artificial.
Muy esquemáticamente, la IA
moderna se caracteriza por el aprendizaje máquina, es decir, la máquina, instruida
por una base de datos, extrapola a partir de la información que tiene sobre
datos nuevos. Estos datos de aprendizaje pueden suministrársele etiquetados,
es decir, por ejemplo, en forma de miles de caracteres manuscritos previamente
catalogados como a, b, c… z o millones de imágenes de animales
catalogados como gatos, perros, tigres, etc. Este es el aprendizaje
supervisado. Incluso se puede no etiquetar a priori las imágenes, que la
máquina se las arreglará para realizar reagrupamientos ad hoc y crear
así nuevas categorías; este es el aprendizaje no supervisado, más selectivo en
recursos, pero más fácil de aplicar (no hace falta etiquetar, que es un proceso
largo y complejo). En fin, la máquina misma puede procurarse los datos de
aprendizaje, que comprobará in situ proponiéndose experiencias; es el
aprendizaje por refuerzo. Un poco como un niño que habla sin conocer la
gramática. Con este último modo de aprendizaje funcionó la máquina AlphaZero,
que derrotó al campeón del mundo del juego de go, Ke Jie, en mayo de 2017 2/. En
tres días jugó millones de partidas contra sí misma y en cierto modo comprendió
cómo jugar. Las cursivas son importantes: puede que ella lo haya comprendido,
¡pero nosotros no! Nadie sabe explicar el camino que ha seguido para obtener
esta victoria.
Pero ¿sirve de algo comprender o
todavía necesitamos demostraciones?
A diferencia del espíritu humano,
la máquina que utiliza las redes neuronales artificiales carece de un instrumento
para distinguir las correlaciones causales de las no causales; y, a fortiori,
no da explicaciones. Pero, ¿es eso tan grave? Después de todo, con una base de
datos extremadamente limitada y sin teoría real, la humanidad del homo
sapiens se desarrolló muy bien durante más de 150.000 años. ¿No cabría
pensar con mayor razón que, con la gigantesca base moderna de datos masivos
correctamente explotada, podrá continuar igual o incluso infinitamente mejor
que antes? De todas maneras, incluso las correlaciones no causales pueden ser
predictivas: no es la caída del barómetro la que causa la tormenta.
Cito la posición extremista y sin
embargo popular de un Chris Anderson. El título de su célebre artículo 3/ es
elocuente: La fin de la théorie : le déluge de données rend la méthode
scientifique obsolète (El fin de la teoría: el diluvio de datos vuelve
obsoleto el método científico). Allí podemos leer esto: “Con datos suficientes,
los números hablan por sí mismos”, y más adelante: “la correlación suplanta la
causalidad, y la ciencia puede avanzar incluso sin un modelo coherente, sin
teoría unificada e incluso sin ninguna explicación mecanicista.” Para él, la
idea es que todos los modelos son falsos y a menudo están contaminados de ideas
preconcebidas, mientras que las bases de datos, a condición de que sean
suficientemente gigantescas, no pueden mentir.
¿Cabe pensar que Deng Xiaoping ya
anticipó en 1960 esta filosofía cuando afirmó eso de que “poco importa que un
gato sea blanco o negro, si caza ratones, es un buen gato”? Se trataba de
introducir más pragmatismo (en el sentido de más mercado) en la economía, sin
prestar atención a las objeciones teóricas que pudieran oponerse.
Hay quien es menos extremista
en el abandono de la teoría 4/: “La
ciencia vive así una revolución epistemológica con la aplicación desde hace tan
solo una decena de años de un ‘cuarto paradigma’ del descubrimiento científico,
a partir del análisis y de la explotación intensiva de los datos, sin
necesidad a priori de un modelo que describa la realidad. Esta
revolución afecta a todos los sectores científicos, sobre todo a los ámbitos de
la biología-salud y las ciencias humanas y sociales.”
No hay inteligencia, solo hay
pruebas de inteligencia
¿Cómo definir la inteligencia de
la máquina sin haber definido la de los humanos? 5/
Turing 6/
escamotea hábilmente esta cuestión proponiendo tan solo compararlas mediante
una prueba. Un experimentador conversa a través de un teclado (u hoy incluso de
viva voz) con un interlocutor oculto. Si el hombre es la mayoría de las veces
incapaz de saber si ha conversado con una máquina o no, se dirá que la máquina
ha superado la prueba de Turing. Claro que la duración de la prueba es
importante y hasta hoy ninguna máquina lo ha conseguido dentro de un tiempo
razonable. A pesar (¿o tal vez a causa?) de su gran simplicidad, determinados
especialistas de IA consideran que el test de Turing es poco interesante. Por
lo demás, se puede pensar que las máquinas lograrían superar el test de Turing
si no comportara más que pruebas convencionales del tipo de las que se utilizan
para determinar el cociente intelectual de los individuos.
La inteligencia de la IA procede
básicamente por inducción. Esto quiere decir que la máquina solo puede prever
sobre la base (gigantesca, sin duda) de lo ya conocido o sucedido. Caricaturizando
un poco, para la máquina lo que sucederá ya ha sucedido o está a punto de
suceder, pero sin los datos masivos, los humanos nunca lo habríamos adivinado.
Salvo que en situaciones políticas, financieras y económicas inéditas, las
previsiones de los datos masivos fracasan. Véanse por ejemplo las previsiones
de la crisis de las hipotecas basura que partió de EE UU en 2007. Nate Silver 7/
demuestra cómo la singularidad absoluta del cuadro económico de EE UU en
aquella época hacía que toda extrapolación resultara inoperante.
En el fondo, el razonamiento
por inducción supone que cuando un acontecimiento se repite n veces, se
repetirá una (n + 1)-ésima vez, y esto con tanta más seguridad, cuanto
mayor sea n; pero en esto no se tienen en cuenta las condiciones,
eventualmente cambiantes, que han permitido esta continuidad; hace falta una
hipótesis implícita de uniformidad. Con esta hipótesis, ¡ni tú ni tus padres
morirán jamás! (Porque si constatas que han vivido todos los días sin
interrupción desde hace 25.000 jornadas, seguirán viviendo el día siguiente.)
El razonamiento por inducción, corriente en la vida cotidiana, puede por tanto
sugerir una hipótesis, pero en ningún caso la demuestra.
No existen los datos brutos
No hay datos inocentes; la noción
de datos brutos es un oxímoron, como ha escrito con toda la razón la
historiadora de medios norteamericana Lisa Gitelman. Los datos son producciones
humanas que pueden estar social o técnicamente sesgadas, no necesariamente de
manera voluntaria. Se toman y se mezclan los datos allí donde uno los
encuentra, como un borracho que busca la llave que ha perdido tan solo donde
llega la luz de la farola. Son numerosos los ejemplos del peligro de analizar
los datos brutos sin reflexionar sobre su producción y cuyo aumento de
volumen no reducirá su sentido falseado. De hecho, la IA no hace más que
multiplicar los peligros de sesgo inherentes a todos los análisis clásicos.
¿Se puede digitalizar el
Universo?
El ser humano interactúa –al
menos potencialmente- con toda la Naturaleza (¡que no es poco!), no la máquina,
que no conoce de ella más que una pequeña parte, y además digitalizada, es
decir, en última instancia, representada tan solo por una sucesión –gigantesca,
sin duda, pero finita– de 0 y 1. Sin embargo, el mapa (digital) no es el
terreno. Creer que la Naturaleza suficientemente digitalizada es la
Naturaleza nos parece ser una ilusión total, al margen del grado de
digitalización. Este es, sin embargo, el credo de algunos ayatolás de
los datos masivos. Extrapolando los éxitos espectaculares de la IA, imaginan
que mañana se podrá hacer física sin físicos, o medicina sin médicos y, por qué
no, sentencias sin jueces.
Ilusión total, ¿verdad? Pero el
ser humano tampoco tiene acceso directamente a toda la Naturaleza. Solo
interactúa con ella a través de sus sentidos y por tanto no puede ver –ni
sentir, ni tocar– todo el terreno. Lo que ve, por ejemplo, está pixelado entre
los 120 millones de células fotosensibles (conos y bastones) que pueblan su
retina. Ahora bien, hoy en día las fotos digitalizadas pueden alcanzar o
incluso superar esta resolución. Los receptores artificiales no tienen nada que
envidiar a nuestros receptores naturales, pero el terreno no se limita
tan solo a la imagen que percibe nuestra retina. Hay que tener en cuenta todo
lo que lo constituye, con su geología, su historia, sus millones de especies
vivas y muertas, sus olores, su precio por metro cuadrado, su belleza, la
poesía que se asocia con él, etc.
De una manera u otra, el cerebro
humano es sensible a ello, aunque no se sepa cómo ni hasta qué punto; esto
abarca prácticamente una infinitud de elementos (que interactúan). Creer que el
terreno, en el pleno sentido del término, es pixelable, es decir,
representable mediante una serie finita (aunque muy grande) de 0 y 1, parece
igual de demencial que pensar que, al estar compuestos los seres humanos (y los
demás) de moléculas que interactúan, se llegará a la explicación de la toma de
la Bastilla en 1789 mediante el estudio (¡muy!) profundo de las fuerzas entre
átomos. Sería lo que podemos denominar un reduccionismo disparatado. Nunca
estará de más recordar este título de un artículo tan lapidario como profundo
de Philip Waren Anderson: More is different. Hay que cambiar de teoría
cuando se cambia de escala de tiempo, de volumen o de complejidad. Es bien
sabido que el todo no es lo mismo que la suma de sus partes. Esto es lo que
caracteriza el fenómeno de la emergencia.
La ciencia no progresa por
acumulación de datos
La ciencia no progresa por
acumulación de datos. Si los descubrimientos del bosón de Higgs o de las ondas
gravitacionales solo pudieron producirse manipulando miles de millones de datos
masivos, tales descubrimientos son, por su génesis, clásicos: se sabía
lo que se buscaba. Miles de científicos y técnicos, con la ayuda de cientos de
millones de dólares, etc., tuvieron que imaginar dispositivos diabólicamente
astutos para detectar los efectos extraordinariamente débiles, que habrían
pasado desapercibidos si no los hubieran buscado allí donde lo preveía la
teoría. Se trata, en el ejemplo de las ondas gravitacionales, de una variación
de longitud de menos de una milmillonésima de milmillonésima de metro de un
brazo de interferómetro de 3 km. Ninguna base de datos masivos habría podido
hallarlas.
Esto no es nuevo; sucedió lo
mismo con el neutrino. Previsto en 1930 por Wolfgang Pauli, es una partícula
neutra que no interactúa prácticamente con la materia y por tanto es muy
difícil de detectar (¡habrá que esperar a 1956!). No está claro cómo los datos
masivos, por muy masivos que sean, sin guía teórica de investigación, habrían
permitido estos descubrimientos. Más en general, los avances que han revolucionado
la física (e incluso la filosofía), a saber, la teoría atómica, la mecánica
cuántica y la relatividad, no tienen nada que ver con una acumulación intensiva
de datos. Einstein elaboró la relatividad especial sobre la base de las
contradicciones lógicas internas de las ecuaciones de Maxwell (que rigen las
corrientes eléctricas y explican las ondas de radio) y la relatividad general a
causa de las contradicciones teóricas aparecidas en el seno de la relatividad
especial. Newton no vio caer más manzanas que sus predecesores para elaborar su
teoría de la gravitación.
Los datos –por supuesto
indispensables para la verificación de la teoría– solo vendrán después. Son
estas teorías, que permiten una nueva auscultación del cielo, las que situarán
el punto de partida para la creación de los datos masivos y no a la inversa.
Por ejemplo, la teoría de la relatividad (enunciada por Einstein en 1915) prevé
una curvatura de los rayos luminosos que pasan cerca de una estrella masiva
(fenómeno que será verificado en 1919 por Eddington). Se trata del fenómeno de
lentilla gravitacional, nueva fuente de información sobre la distribución de
las masas del universo. Ocurre lo mismo con las ondas gravitacionales, que
enriquecerán todavía más nuestros datos masivos.
En resumen, la ciencia no procede
por acumulación y sistematización de datos –aunque esta sea una etapa que puede
ser importante–, sino mediante la resolución de problemas 8/.
Problemas que pueden ser internos de la teoría existente o resultar de
contradicciones entre teoría y experiencias (u observaciones). Es todo el
problema abierto de la creatividad.
Hay finalmente otra diferencia de
calibre: la máquina está dedicada. Debe resolver, permaneciendo todo lo demás
invariable, una tarea que se le marca. Vive dentro de un mundo pequeño. Aunque
el número de partidas de go fuera miles de millones de veces superior al número
total de átomos del universo, la máquina solo interactuaría muy débilmente con
todo el universo (responde únicamente a las jugadas del adversario). En estos
sentidos, es un juego simple. Una rata robot se manejará mucho mejor que
una rata de carne y hueso en un laberinto, pero si aparece un olor a quemado,
la rata de carne y hueso tratará de huir, el robot no. La rata de verdad posee
en cierto modo una cultura, fruto de un proceso de evolución darwiniana de
interacciones con el resto del mundo, que habrá durado miles de millones de
años. Este proceso es copioso, es decir, sin objetivo. Es mucho más lento que
un proceso pilotado por un objetivo, pero a largo plazo es mucho más eficaz. Es
el que está en el origen del sentido común, lo más difícil de adquirir –si
es que esto resulta posible un día– por parte de una máquina 9/.
¿En conclusión?
He aquí el extracto de la
entrevista de Antoinette Rouvroy publicada con el título Mais pourquoi
faudrait-il s’en inquiéter si l’on gagne en efficacité ? (¿Por qué
inquietarse si se gana en eficacia?) en Le Monde del 30 de diciembre de
2017:
Vamos hacia un cambio
epistemológico de calibre. Basarnos en este tipo de cálculo supone una renuncia
a las ambiciones de la razón moderna, que asociaba los fenómenos a sus causas.
Estas ambiciones de la razón permitían abordar la prevención, actuar sobre las
causas para cambiar los efectos. En vez de ello, nos dirigimos a un sistema de
puras correlaciones. Ya no se intenta comprender el medioambiente, sino
predecirlo. Nuestra relación con el saber cambia, pero también nuestra relación
con el mundo: nos centramos más que antes en los riesgos. Ver y comprender son
sustituidos por detectar y prevenir. Pasamos de una civilización del signo, que
era portador de sentido, a una civilización de la señal, que es un dato que no
significa nada en sí mismo.
En otras palabras, con la ciencia
se trata de actuar sobre el mundo, con la IA fetichizada, es el mundo el que
actúa sobre nosotros, lo cual es muy distinto. Esto vuelve a poner de
actualidad a un Marx que afirmaba en sustancia que no había que interpretar el
mundo, sino que se trataba de transformarlo.
Notas
1/ Un octeto está formado por 8 cifras binarias (bits), es decir,
una secuencia de 8 ceros o unos. Permite codificar 28=256
caracteres, o sea, mucho más que todo un alfabeto con mayúsculas, acentos y
signos de puntuación.
2/ Cosa que parecía totalmente fuera del alcance cinco años antes…
3/ Consultable en línea en https://www.wired.com/2008/06/pb-theory/ (en inglés)
4/ Jedan-Philippe Bourgoin, Voyage au cœur
du big data, Clefs CEA, n.º 64, junio de 2017.
5/ Se conocen las numerosas polémicas en torno al significado del
CI (el cociente intelectual).
6/ Alan Turing (1912-1954), genial matemático inglés que logró
descubrir el código secreto alemán durante la segunda guerra mundial.
Perseguido por su homosexualidad, se suicidó comiéndose una manzana envenenada.
7/ The signal and the
noise: The art of science and prediction, Penguin,
2012.
8/ Profecía atribuida a Einstein: un día, las máquinas podrán
resolver todos los problemas, pero ninguna de ellas podrá jamás plantear uno.
9/ Por ejemplo, la minúscula modificación de algunos píxels en una
foto de una oveja que pasta en un prado puede hacer que la máquina la
identifique como una mesa, cosa que el sentido común, evidentemente, no lo
permitiría.
Fuente:
https://vientosur.info/author/4721/