Obsidiana Digital

En el núcleo del algoritmo

Deslizar keyboard_arrow_down
Escrito por:
Publicación: calendar_month 27 de agosto de 2023

Investigador Titular, Instituto Nacional de Astrofísica, Óptica y Electrónica Los avances recientes de la inteligencia artificial (IA) son sorprendentes, principalmente por los desarrollos en técnicas de aprendizaje. Esto se debe a tres factores: (a) la gran cantidad de datos disponibles en Internet, incluyendo texto, imágenes y videos; (b) el desarrollo del poder de cómputo, en particular los procesadores gráficos que permiten realizar muchas operaciones a la vez; y (c) los avances en los algoritmos de aprendizaje profundo.

Los avances recientes de la inteligencia artificial (IA) son sorprendentes, principalmente por los desarrollos en técnicas de aprendizaje. Esto se debe a tres factores: (a) la gran cantidad de datos disponibles en Internet, incluyendo texto, imágenes y videos; (b) el desarrollo del poder de cómputo, en particular los procesadores gráficos que permiten realizar muchas operaciones a la vez; y (c) los avances en los algoritmos de aprendizaje profundo.

 

Actualmente los sistemas inteligentes pueden reconocer personas y objetos en imágenes, comunicarse con nosotros en lenguaje natural (español, inglés, etc.), conducir autos y vencer a campeones mundiales de ajedrez, entre muchas otras aplicaciones.

 

Antes de adentrarnos en el aprendizaje profundo, consideremos las redes neuronales artificiales, que se desarrollaron al comienzo de la era de las computadoras y fueron una de las primeras técnicas para que un ordenador aprendiera a partir de datos.

 

Se inspiraron en un modelo simple de las redes neuronales biológicas al componerse de unidades de procesamiento elementales, denominadas neuronas, que calculan una suma ponderada de las señales de entrada como valores numéricos. Asociada a cada línea de transmisión se tiene un peso que multiplica la señal y el resultado de todas las entradas se suma. La salida de la neurona es positiva si el resultado de la suma es mayor a cierto valor (conocido como umbral) y negativa en caso contrario (ver Figura 1).

 

La red neuronal más sencilla es el Perceptrón, que consta de una sola neurona. El Perceptrón aprende de un conjunto de datos, ajustando los pesos para que el error, es decir, la diferencia entre la salida real y la esperada, se minimice. Por ejemplo, si queremos

que aprenda funciones lógicas de dos señales, le proporcionamos ejemplos. Un caso podría ser que aprenda la función lógica “Y”: se tienen dos entradas binarias, si ambas son uno, la salida es uno, en caso contrario la salida es cero. Si el resultado es incorrecto se ajustan los pesos del Perceptrón, hasta que para cualquier valor de las señales la salida sea la esperada.

 

Si se combinan muchas neuronas en una red neuronal es posible que se aprendan funciones muy complejas, como aquellas que se necesitan para clasificar imágenes.

 

En la Figura 2 se muestra un ejemplo de una red neuronal con varias capas. La información fluye a través de los cantos de la red, de izquierda a derecha. Para que una red neuronal multicapa aprenda, se modifican los pesos de todas las conexiones de acuerdo con los errores en la salida, desde la última capa y propagando el error de regreso hasta la capa de entrada.

 

Supongamos que queremos que la red aprenda a distinguir entre gatos y perros. Le damos como entrada la imagen de un gato y la red nos dice que es un perro; esto es un error en la salida. Entonces lo que se hace es modificar los pesos de las conexiones que van conectadas a la salida en función de este error (última capa); y luego los pesos de las conexiones que se conectan a las neuronas de la última capa (penúltima capa), y así sucesivamente hasta llegar a la capa de entrada.

 

Mediante este proceso de ir modificando los pesos, después de muchos ejemplos, la red “aprende” a distinguir los gatos de los perros. Estos sistemas pueden aprender a resolver problemas muy complejos, como, por ejemplo, detectar defectos en imágenes de productos en una línea de producción, entre otros.

 

La revolución del aprendizaje profundo (deep learning) comenzó a principios de este siglo con avances que permitieron desarrollar modelos de redes neuronales con muchas capas, normalmente entre 5 y 20, algo imposible anteriormente. Esto se logró gracias a los millones de datos que existen actualmente en Internet y el aumento en el poder de cómputo, así como a mejoras en los algoritmos de aprendizaje.

 

La red neuronal profunda conocida como AlexNet marcó un hito impactante al ganar el concurso ImageNet. En esta competencia se trabaja con un conjunto de más de un millón de imágenes con 1,000 diferentes clases de objetos.

 

El reto consiste en desarrollar un sistema computacional que pueda reconocer en las imágenes a todos los tipos de objetos. AlexNet logró un porcentaje de reconocimiento correcto superior al 85%, mientras otros sistemas no superaron el 75%. Esto tuvo un gran

impacto en la comunidad científica y en varias empresas líderes en IA, tanto que generó una gran cantidad de investigación y aplicaciones de aprendizaje profundo. Actualmente ya se obtiene un reconocimiento del 95% en las diferentes clases de objetos en la base de datos de ImageNet.

 

El aprendizaje profundo tuvo un gran impacto en el área de visión por computadora, algo que hasta hace pocos años era considerado como uno de los problemas más difíciles en IA. AlexNet y otros sistemas desarrollados utilizan muchas capas de neuronas que procesan secuencialmente la imagen de entrada. Cada pequeño elemento de la imagen (conocido como pixel) se alimenta a una de las neuronas de la capa inicial, y sus salidas van pasando por las diferentes capas de neuronas, hasta llegar a la última, donde se tiene una señal de salida para cada tipo de objeto (ver Figura 3).

 

La red se entrena con millones de ejemplos, ajustando los pesos de cada conexión, hasta que el sistema produce resultados satisfactorios. Actualmente estos sistemas han logrado resultados impresionantes en muchas aplicaciones, por ejemplo, el reconocimiento de personas en las imágenes en nuestras redes sociales y el análisis de imágenes del entorno para los vehículos autónomos.

 

En los últimos años se desarrollaron diversas variantes de las redes neuronales profundas; destacan dos tipos de modelos: las redes generativas y los llamados Transformers.

 

Las redes generativas, conocidas como GANs, consisten de dos redes neuronales: un generador, que aprende a generar ejemplos artificiales, por ejemplo, de caras de personas; y un discriminador, que trata de reconocer si lo que produce el generador es verdadero o falso.

Se entrenan en una forma simultánea, compitiendo una contra la otra, hasta que el generador aprende a generar ejemplos falsos o sintéticos tan buenos que el discriminador no logra distinguirlos. Una aplicación de los GANs es generar caras de personas imaginarias que parecen reales. Otra aplicación es la generación de imágenes a partir de frases de texto, como hace el sistema DALL-E.

 

Los Transformers permiten aprender relaciones en secuencias de datos, por ejemplo, entre palabras en textos, y han tenido un gran impacto en los sistemas que reconocen el lenguaje natural. Un ejemplo sobresaliente es ChatGPT, que puede conducir conversaciones con personas sobre prácticamente cualquier tema (un ejemplo de una conversación así se incluye en otra sección de este suplemento).

 

A pesar de los grandes avances en el aprendizaje profundo, aún existen retos importantes, como el que estos sistemas puedan explicar cómo llegaron a ciertos resultados, o el que logren generalizar lo que aprendieron y lo apliquen a otros problemas similares, como hacemos los humanos. Por lo que sigue abierta la pregunta: ¿la inteligencia artificial algún día alcanzará o, incluso, superará a la natural?

 

 

 

 

PIES DE FIGURA

 

Figura 1. Neurona natural (arriba) y neurona artificial (abajo). La neurona natural recibe información de otras neuronas a través de las dendritas y envía información mediante el axón. La neurona artificial computa una suma ponderada de las entradas y produce una salida si esta suma es mayor a cierto valor (umbral).

 

Figura 2. Una red neuronal con tres capas de neuronas. Una capa de entrada, una capa intermedia conocida como capa oculta, y una capa de salida.

 

Figura 3. Una arquitectura típica de una red neuronal profunda para reconocimiento de objetos en imágenes.

 

 

Al combinar muchas neuronas en una red neuronal, se pueden aprender funciones muy complejas.

 

Las redes neuronales modernas pueden tener decenas de capas; esto posibilita el aprendizaje profundo.

 

Hasta hace poco, el aprendizaje profundo era considerado uno de los problemas más difíciles en IA.

Ensayo y error: aprendizaje por refuerzo
Obsidiana Digital | Científicos
Obsidiana Digital | Científicos
Disrupción contra regulación para México y el Mundo

Newsletter

Suscríbete a nuestro newsletter y recibe lo último en publicaciones y contenido exclusivo.

Obsidiana Digital 2025
Obsidiana Logo ASTRYD Editorial IA