Software, IA y LLM: qué son y en qué se diferencian

Hay una conversación que tengo con frecuencia. Va así:

"Entonces ChatGPT es como un programa muy avanzado, ¿no?"

La respuesta honesta es: depende de qué entiendas por "programa". Si "programa" significa instrucciones escritas por alguien que le dicen al computador exactamente qué hacer en cada caso, entonces no. Un LLM no funciona así. Pero si "programa" significa software que se ejecuta en un computador y produce outputs a partir de inputs, entonces sí, en ese sentido básico.

La distinción importa porque determina qué puedes esperar de estas herramientas, cuándo confiar en ellas, y cuándo desconfiar.

Qué es el software clásico

Un programa de software es una serie de instrucciones que alguien escribió explícitamente para que el computador las ejecute en orden.

El ejemplo más simple: una calculadora. Cuando pulsas "2 + 3 = ", hay código que dice exactamente: toma el número de la izquierda, toma el número de la derecha, suma ambos, muestra el resultado. No hay ambigüedad. No hay aprendizaje. La calculadora hace lo mismo el primer día que el décimo año.

Un programa de gestión de facturación funciona igual: reglas explícitas. Si el cliente pagó antes del día 30, descuento del 2%. Si pagó después, recargo del 5%. El programador que escribió eso anticipó todos los casos posibles y escribió la instrucción correspondiente para cada uno.

La fortaleza de este modelo es su predictibilidad. Si entiendes las reglas, puedes predecir el output con certeza absoluta. La debilidad es la siguiente: solo funciona para problemas que el programador pudo anticipar completamente.

¿Cómo escribirías las reglas explícitas para que un programa identifique un gato en una foto? Podrías intentarlo: "si hay una región con textura peluda y orejas triangulares y bigotes...". Pero los gatos tienen infinitas variaciones. Las fotos también. Ningún conjunto finito de reglas escritas a mano va a cubrir todos los casos.

El problema que el software clásico no podía resolver

En 1966, Joseph Weizenbaum del MIT creó ELIZA, el primer programa de conversación. ELIZA seguía patrones simples: si el usuario escribía "me siento triste", el programa respondía "¿Por qué dices que te sientes triste?". Era una serie de plantillas con sustitución de palabras clave.

ELIZA impresionó a mucha gente — algunos usuarios sabían que era un programa y aun así empezaban a confiarle sus problemas personales. Weizenbaum quedó perturbado por esto y escribió Computer Power and Human Reason (1976) argumentando que los computadores no deberían simular comprensión humana.

Pero el punto técnico es claro: ELIZA no entendía nada. Hacía coincidencia de patrones sobre texto. Si escribías algo que no coincidía con ninguna plantilla, el programa respondía con una respuesta genérica de fallback. Sus límites eran totalmente visibles.

Cincuenta años de investigación en inteligencia artificial intentaron superar este límite de distintas formas. Sistemas expertos que codificaban el conocimiento de especialistas en reglas lógicas formales. Redes neuronales que intentaban modelar el aprendizaje biológico. Algoritmos de búsqueda que exploraban espacios de posibilidades.

El progreso fue real pero lento. Hasta que pasó algo específico en 2017.

El transformer: el cambio que lo alteró todo

En junio de 2017, un equipo de Google Brain publicó un paper titulado Attention Is All You Need. Los autores son Ashish Vaswani y siete colegas más. El paper está en arxiv con identificador 1706.03762.

El paper propone una arquitectura nueva para procesar secuencias de texto llamada transformer (un tipo de red neuronal que usa mecanismos de atención para relacionar partes distantes de una secuencia de texto entre sí).

La idea central es el mecanismo de atención (attention mechanism): en lugar de procesar un texto de izquierda a derecha en orden, como hacían las arquitecturas anteriores, el transformer puede relacionar cualquier palabra con cualquier otra palabra de la secuencia, sin importar la distancia entre ellas.

Esto puede sonar técnico. El efecto práctico es esto: "El gato estaba en la estera. Le gustaba dormir ahí." Para entender a qué se refiere "ahí", necesitas conectar "ahí" con "estera" a pesar de que están separadas por una oración entera. Los sistemas anteriores lo hacían mal cuando las distancias eran largas. El transformer lo hace bien porque puede calcular relaciones entre todas las palabras simultáneamente.

Cómo aprende un LLM: la predicción del siguiente token

Un LLM (Large Language Model, modelo de lenguaje de gran escala) es una red neuronal basada en la arquitectura transformer, entrenada sobre enormes cantidades de texto.

El proceso de entrenamiento es conceptualmente simple aunque computacionalmente enorme:

Se recopila una cantidad masiva de texto. En el caso de GPT-3 (2020, OpenAI), fueron aproximadamente 570 GB de texto en inglés. Libros, páginas web, código, artículos.
El modelo aprende a predecir la siguiente palabra (técnicamente, el siguiente token — fragmento de texto que puede ser una palabra, parte de una palabra, o un signo de puntuación) dado el contexto previo.
Se compara cada predicción con el texto real. Cuando el modelo se equivoca, se ajustan los millones de parámetros internos para que la próxima vez falle menos. Este proceso se llama backpropagation (retropropagación del error).
Esto se repite miles de millones de veces. El resultado es un modelo que ha comprimido enormes cantidades de conocimiento lingüístico y factual en sus parámetros.

Lo que el LLM ha aprendido no son reglas explícitas. Ha aprendido distribuciones de probabilidad sobre texto: dado este contexto, ¿qué texto es más probable que venga después?

La diferencia real con el software clásico

Aquí está la distinción que importa:

Software clásico: las reglas las escriben los humanos antes de ejecutar el programa. El programador anticipa los casos y los codifica. El programa sigue esas reglas exactamente.

LLM: las "reglas" emergen del entrenamiento sobre datos. Nadie escribió explícitamente "cuando alguien pregunte por la capital de Francia, responde París". El modelo aprendió ese patrón estadísticamente de miles de textos donde "Francia" y "París" co-aparecen en contextos apropiados.

Esta diferencia produce dos consecuencias que debes tener claras:

Primera consecuencia: los LLMs generalizan de formas que ningún humano programó explícitamente. Pueden responder preguntas sobre temas que no estaban en el conjunto de entrenamiento, combinar conceptos de formas nuevas, adaptarse al tono de la conversación.

Segunda consecuencia: los LLMs se equivocan de maneras que un software clásico no se equivoca. Un software clásico que suma 2 + 3 nunca va a responder 6. Un LLM puede "alucinar" — generar texto que suena completamente plausible pero es factualmente incorrecto — porque está optimizando por coherencia estadística, no por veracidad verificada.

Esto no es un fallo que se puede "arreglar" fácilmente. Es una consecuencia directa de cómo funcionan.

BERT y la comprensión bidireccional

En octubre de 2018, Google publicó otro paper fundamental: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (arxiv: 1810.04805), con Devlin, Chang, Lee y Toutanova como autores.

BERT introduce una variante del transformer que lee el texto en ambas direcciones a la vez, no solo de izquierda a derecha. Esto mejora mucho la comprensión del contexto para tareas como clasificación de textos, respuesta a preguntas, y detección de sentimiento.

Los modelos que se usan en buscadores para entender qué busca realmente una persona cuando escribe una consulta están basados en arquitecturas tipo BERT. Cuando Google o Bing entienden que "receta fácil pasta" y "cómo hacer pasta rápido" son la misma intención, están usando estas técnicas.

¿Qué es entonces la "inteligencia artificial"?

La inteligencia artificial como campo existe desde los años 50. El término lo acuñó John McCarthy en 1956 para la Conferencia de Dartmouth, donde un grupo de investigadores propuso que "cada aspecto del aprendizaje o cualquier otra característica de la inteligencia puede ser descrita con suficiente precisión como para hacer una máquina que la simule".

La definición de Russell y Norvig en Artificial Intelligence: A Modern Approach — el libro de referencia del campo — distingue cuatro tipos de IA según su objetivo: sistemas que piensan como humanos, sistemas que actúan como humanos, sistemas que piensan racionalmente, o sistemas que actúan racionalmente.

Los LLMs no encajan perfectamente en ninguna categoría. No "piensan" en ningún sentido verificable. No tienen objetivos propios. No tienen experiencia subjetiva — o si la tienen, no tenemos ninguna herramienta para comprobarlo (esto es lo que el filósofo David Chalmers llamó el "problema difícil de la conciencia" en 1995, y sigue sin resolverse).

Lo que sí hacen los LLMs es producir outputs que en muchos contextos son útiles de la misma manera que sería útil la respuesta de un experto humano. Eso tiene valor enorme. Pero no es lo mismo que "inteligencia" en el sentido pleno del término.

El entrenamiento con feedback humano: cómo se alinean los modelos

Un LLM entrenado solo con predicción del siguiente token tiende a producir texto estadísticamente plausible pero no necesariamente útil, seguro, o alineado con lo que el usuario quiere.

Para corregir esto, Anthropic y otras empresas usan una técnica llamada RLHF (Reinforcement Learning from Human Feedback, aprendizaje por refuerzo a partir de feedback humano). El proceso funciona así:

El modelo genera respuestas a preguntas.
Humanos evalúan cuáles respuestas son mejores.
Se entrena un modelo de recompensa que aprende las preferencias humanas.
El LLM se ajusta usando ese modelo de recompensa para maximizar las respuestas que los humanos prefieren.

Anthropic fue un paso más allá con Constitutional AI (descrito en el paper arxiv: 2212.08073, de Bai et al., 2022): en lugar de solo usar feedback humano, el modelo se entrena usando un conjunto de principios escritos — una "constitución" — para evaluar y revisar sus propias respuestas. Esto reduce la dependencia de evaluadores humanos para cada iteración del entrenamiento.

El resultado son modelos que son más útiles, menos propensos a generar contenido dañino, y más consistentes en seguir intenciones del usuario. El resultado no es perfecto, pero el progreso entre modelos de diferentes generaciones es medible.

Tres conceptos que se confunden todo el tiempo

"La IA entiende lo que digo." Los LLMs procesan texto y generan respuestas estadísticamente apropiadas. Si eso constituye "comprensión" en algún sentido filosófico profundo es una pregunta abierta. Lo que está claro es que el mecanismo subyacente es completamente diferente a cómo los humanos entienden el lenguaje.

"La IA inventa cosas porque no sabe la respuesta." Los modelos no saben cuándo no saben algo — no en el sentido en que un humano sabe que no sabe algo. Generan el texto más probable dado el contexto, independientemente de si ese texto corresponde a hechos reales. Las alucinaciones no son mentiras intencionales. Son errores de generalización estadística.

"Los modelos más grandes siempre son mejores." El tamaño (número de parámetros) importa, pero la calidad y diversidad de los datos de entrenamiento, la arquitectura, el proceso de alineamiento, y la cantidad de cómputo usado importan igual o más. Modelos más pequeños bien entrenados a veces superan a modelos más grandes en tareas específicas.

De la predicción de texto a los agentes

Los LLMs como los hemos descrito hasta aquí hacen una cosa: toman texto de entrada y generan texto de salida.

Pero ¿qué pasa cuando conectas un LLM a herramientas externas? A un buscador web. A una calculadora. A un sistema de archivos. A una API que puede enviar correos o crear registros en una base de datos.

En ese momento el LLM deja de ser solo un generador de texto y se convierte en el "cerebro" de un sistema que puede actuar en el mundo.

Eso es lo que llamamos un agente de IA (un sistema donde un LLM decide qué pasos dar, qué herramientas usar, y en qué orden, para completar un objetivo). Los agentes son el siguiente nivel de complejidad encima de los LLMs. En las próximas entradas te explico cómo funciona esa arquitectura y cómo la usa Deviam en la práctica.

Pero antes, una parada necesaria: en la siguiente entrada te cuento específicamente cómo funciona Claude, el modelo de Anthropic que uso como base para todo el trabajo de Deviam. No porque sea el único modelo que existe — sino porque entender uno en profundidad te da el marco para entender todos los demás.

Fuentes para ir más lejos

Vaswani et al., Attention Is All You Need (2017) — arxiv: 1706.03762. El paper del transformer.
Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2018) — arxiv: 1810.04805.
Bai et al., Constitutional AI: Harmlessness from AI Feedback (2022) — arxiv: 2212.08073. El paper de Anthropic sobre Constitutional AI.
Stuart Russell y Peter Norvig, Artificial Intelligence: A Modern Approach (4ª edición, 2020) — el libro de referencia del campo.
Joseph Weizenbaum, Computer Power and Human Reason (1976) — el inventor de ELIZA reflexiona sobre los límites y peligros de la IA.

Siguiente entrada: Claude y la familia Anthropic: cómo funciona el modelo que uso