Ocho tipos de IA: el mapa completo de arquitecturas

Cuando la mayoría de personas habla de "IA", habla de ChatGPT, Claude, o Gemini. Modelos de lenguaje que responden preguntas en texto.

Eso es una fracción pequeña del panorama real.

La IA como campo técnico ha producido en los últimos años al menos ocho familias de arquitecturas distintas, cada una diseñada para resolver un tipo diferente de problema. Algunas procesan texto, otras imágenes, otras combinan ambas. Algunas están diseñadas para ejecutar acciones en el mundo. Algunas son enormes y se ejecutan en centros de datos; otras son pequeñas y se ejecutan en tu teléfono.

Entender el mapa completo te da una ventaja práctica: cuando ves una aplicación de IA en el mundo real, puedes identificar qué tipo de sistema hay detrás, qué puede y qué no puede hacer, y por qué fue diseñado así.

1. LLM — Large Language Model (Modelo de Lenguaje de Gran Escala)

Ya los conoces de las entradas anteriores. Son la arquitectura dominante en la conversación pública sobre IA.

Un LLM es una red neuronal basada en transformers, entrenada sobre texto a escala masiva, que puede generar, resumir, traducir, clasificar y razonar sobre texto con alta fluidez.

Casos de uso: asistentes de texto, generación de código, análisis de documentos, traducción, resumen automático, atención al cliente.

Ejemplos actuales: Claude (Anthropic), GPT-4o (OpenAI), Gemini (Google), Llama 3 (Meta, open source).

Limitación principal: el LLM por sí solo solo genera texto. No puede buscar en internet, ejecutar código, ni tomar acciones en el mundo a menos que esté conectado a herramientas externas. Esa conexión — herramientas + LLM — es lo que produce los agentes de acción que describo más adelante.

2. LCM — Large Concept Model (Modelo de Conceptos de Gran Escala)

Esta es la arquitectura más nueva de las ocho, y una de las menos conocidas fuera de los círculos de investigación.

Un LCM trabaja con conceptos como unidad básica, no con palabras o tokens. El paper Large Concept Models: Language Modeling in a Sentence Representation Space (arxiv: 2412.08821), publicado por investigadores de Meta FAIR en diciembre de 2024, propone que el LLM tradicional tiene una limitación fundamental: está demasiado atado a la forma lingüística superficial del texto.

La diferencia es análoga a esta: cuando un humano piensa, no piensa en palabras una por una. Piensa en ideas, y luego las traduce a palabras. El LCM intenta operar a ese nivel de abstracción superior — representar oraciones enteras como vectores conceptuales, razonar sobre esos vectores, y solo después traducir de vuelta a texto.

La promesa: mejor razonamiento abstracto y transferencia de conocimiento entre idiomas (porque el concepto es el mismo en español y en inglés aunque las palabras sean distintas).

El estado actual: es investigación de frontera, no producto mainstream. Los LCM más avanzados publicados hasta ahora no superan de forma consistente a los mejores LLMs en benchmarks generales, pero el enfoque es prometedor para tareas específicas de razonamiento multilingüe.

Por qué importa saberlo: cuando oigas hablar en los próximos años de "modelos que razonan con conceptos" o "arquitecturas post-transformer", este es el tipo de investigación que está detrás.

3. LAM — Agentes de acción (Large Action Model, categoría funcional)

Esta es probablemente la categoría que más confusión genera porque no tiene una arquitectura única definida por un paper canónico. Es una categoría funcional: modelos o sistemas diseñados para ejecutar secuencias de acciones en entornos digitales, no solo para generar texto.

La distinción clave con un LLM estándar: un LAM puede navegar una interfaz web, hacer clic en botones, llenar formularios, ejecutar código, y completar flujos de trabajo de múltiples pasos en nombre de un usuario.

Un ejemplo concreto: en lugar de responder "para reservar un vuelo deberías ir a la web de la aerolínea y...", un agente de acción entra a la web, busca el vuelo, selecciona el asiento, y te pide confirmación antes de pagar.

El paper xLAM: A Family of Large Action Models to Empower AI Agent Systems (Salesforce AI Research, arxiv: 2402.01030) es una referencia válida para ver cómo se está formalizando esta categoría. Pero la arquitectura exacta varía por implementación: algunos usan LLMs conectados a herramientas, otros usan modelos fine-tuned específicamente para seguir acciones.

Lo que debes saber: cuando hablo de "agentes" en Deviam, me refiero a sistemas que combinan un LLM (generalmente Claude) con un conjunto de herramientas y un protocolo de coordinación. La inteligencia viene del LLM. La capacidad de actuar viene de las herramientas. La coordinación viene del diseño del sistema.

4. MoE — Mixture of Experts (Mezcla de Expertos)

Los LLMs estándar tienen todos sus parámetros activos para cada inferencia (cada vez que el modelo genera una respuesta). Un modelo de 100.000 millones de parámetros usa todos esos parámetros para responder tanto una pregunta simple como una compleja.

Un MoE cambia esto: tiene múltiples "expertos" — subredes especializadas — y para cada input activa solo los expertos más relevantes.

El paper Mixtral of Experts (Jiang et al., 2024, arxiv: 2401.04088) de Mistral AI describe uno de los MoE más influyentes en modelos open source: Mixtral 8x7B. El modelo tiene 8 expertos de 7.000 millones de parámetros cada uno, pero para cada token solo activa 2 de los 8 expertos. El resultado: el modelo tiene la calidad de uno de ~46.000 millones de parámetros pero la velocidad de inferencia de uno de ~13.000 millones.

La ventaja: más eficiencia computacional. Modelos con alta capacidad que cuestan menos de ejecutar que un modelo denso equivalente.

El reto técnico: el enrutamiento (decidir qué expertos activar para cada input) es difícil de estabilizar durante el entrenamiento. Si el enrutamiento se desequilibra, algunos expertos se sobrecargan y otros se subutilizan, perdiendo la ventaja del diseño.

Dónde aparece: GPT-4 probablemente usa alguna variante de MoE (OpenAI no ha confirmado la arquitectura interna). Gemini 1.5 de Google también usa MoE. En el mundo open source, Mixtral y las arquitecturas derivadas son relevantes.

5. VLM — Vision-Language Model (Modelo de Visión y Lenguaje)

Un VLM puede procesar tanto imágenes como texto, y combinar ambas modalidades para responder preguntas.

La pregunta "¿qué hay en esta foto?" — un LLM puro no puede responderla porque no procesa imágenes. Un VLM sí.

La arquitectura base más influyente es CLIP (Contrastive Language–Image Pre-training, entrenamiento contrastivo de lenguaje e imagen), publicado por OpenAI en 2021 (arxiv: 2103.00020, Radford et al.). CLIP aprende a asociar imágenes con descripciones de texto de forma contrastiva: se entrena para que la representación interna de "una foto de un gato" sea cercana a la representación de una imagen real de un gato, y lejana de imágenes de perros o coches.

Sobre esta base, modelos como GPT-4V (OpenAI), Claude con visión (Anthropic), o Gemini incorporan la capacidad de procesar imágenes como parte del input.

Casos de uso actuales:

Descripción automática de imágenes para accesibilidad
Análisis de documentos escaneados con tablas o gráficos
Identificación de productos en fotos
Asistencia visual para personas con discapacidad
Diagnóstico médico asistido (radiografías, histología)

El límite actual: los VLMs todavía cometen errores en razonamiento espacial complejo (preguntas como "¿qué objeto está a la izquierda del objeto rojo?") y en contar objetos en imágenes densas. Son útiles pero requieren verificación para tareas críticas.

6. SLM — Small Language Model (Modelo de Lenguaje Pequeño)

Los LLMs grandes requieren centros de datos para ejecutarse. Un SLM está diseñado para ejecutarse en hardware de consumo: un laptop, un teléfono, un dispositivo edge (dispositivo de procesamiento local, fuera de la nube).

El paper Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone (Abdin et al., 2024, arxiv: 2404.14219) de Microsoft describe Phi-3-mini, un modelo de 3.800 millones de parámetros que se ejecuta en un teléfono y alcanza en varios benchmarks la calidad de modelos mucho más grandes.

¿Cómo es posible que un modelo pequeño sea competitivo con uno grande? La clave está en los datos de entrenamiento. Phi-3 se entrenó con datos de altísima calidad — código, matemáticas, texto cuidadosamente curado — en lugar de con texto masivo de baja calidad. La tesis: si el modelo aprende de los mejores ejemplos disponibles, puede aprender más con menos parámetros.

Por qué importa para el trabajo real:

Privacidad: el modelo se ejecuta localmente, los datos del usuario nunca salen del dispositivo.
Latencia: sin llamada de red, la respuesta es casi instantánea.
Coste: sin coste de API, sin límites de uso.
Funcionamiento offline: útil en industrias donde la conectividad no está garantizada.

Limitación: los SLMs siguen siendo peores que los LLMs grandes en tareas que requieren razonamiento complejo o conocimiento muy amplio. Para tareas específicas y acotadas, son suficientes.

7. MLM — Masked Language Model (Modelo de Lenguaje Enmascarado)

Esta arquitectura es anterior a los LLMs generativos pero sigue siendo enormemente relevante para tareas de comprensión de texto en producción.

BERT (que mencioné en la entrada anterior, arxiv: 1810.04805) es el MLM más influyente. Se entrena con una tarea específica: dado un texto con algunas palabras "enmascaradas" (ocultadas), predecir qué palabras van ahí.

La diferencia fundamental con los LLMs generativos: un MLM no genera texto nuevo. Produce representaciones numéricas (vectores) del texto que capturan su significado semántico. Esas representaciones se usan luego para clasificación, búsqueda semántica, y detección de similitud.

Casos de uso donde dominan:

Búsqueda semántica: cuando un buscador entiende que "cómo hacer pasta rápido" y "receta fácil pasta" buscan lo mismo.
Clasificación de sentimiento: determinar si una reseña es positiva, negativa o neutral.
Detección de spam: clasificar si un mensaje es legítimo o fraudulento.
Sistemas de recomendación: encontrar items similares a partir de descripción de texto.

Los MLMs son generalmente más pequeños, rápidos, y baratos de ejecutar en producción que los LLMs generativos. Para un sistema que necesita clasificar millones de emails por hora, un BERT fine-tuned es más práctico que Claude.

8. SAM — Segment Anything Model (Modelo de Segmentación Universal)

SAM sale del dominio del lenguaje para entrar en visión por computador pura.

El paper Segment Anything (Kirillov et al., 2023, arxiv: 2304.02643) de Meta AI introduce un modelo entrenado para identificar y delimitar objetos en cualquier imagen. Le señalas cualquier punto de la imagen, o le das una instrucción de texto, y SAM traza el contorno preciso del objeto.

Lo que hace a SAM notable es la generalización: los modelos de segmentación anteriores necesitaban entrenamiento específico para cada categoría de objeto. SAM fue entrenado con más de 1.000 millones de máscaras sobre 11 millones de imágenes y puede segmentar objetos que nunca vio durante el entrenamiento.

Casos de uso:

Edición de imágenes y vídeo (aislar un objeto para cambiarlo)
Análisis médico (delimitar tumores en imágenes de resonancia magnética)
Conducción autónoma (detectar y delimitar peatones, coches, señales)
Agricultura de precisión (identificar plantas individuales en imágenes de drones)
Robótica (identificar objetos manipulables en la escena)

SAM2 (2024) extiende la capacidad a vídeo: puede seguir un objeto a lo largo de los frames de un vídeo manteniendo la segmentación coherente incluso cuando el objeto se ocluye parcialmente.

Cómo se combinan en la práctica

La distinción entre estas ocho arquitecturas no significa que se usen en aislamiento. En sistemas reales, se combinan.

Un sistema de análisis de documentos médicos podría usar:

Un VLM para extraer texto e interpretar imágenes de radiografías
Un SAM para delimitar regiones de interés en las imágenes
Un LLM para sintetizar el análisis y redactar el informe
Un MLM para clasificar automáticamente el tipo de documento

Un sistema de atención al cliente podría usar:

Un MLM para clasificar y priorizar tickets
Un SLM en el dispositivo del cliente para respuestas rápidas offline
Un LLM en la nube para casos complejos que requieren razonamiento
Un agente de acción conectado al CRM para actualizar registros

La arquitectura de Deviam usa principalmente Claude (LLM) con capacidades de agente de acción a través de herramientas. Pero cuando el trabajo involucra imágenes, vídeo, o análisis a escala, el diseño óptimo combina varias de estas familias.

Lo que unifica a todas estas arquitecturas

A pesar de sus diferencias, hay un principio que cruza todas las arquitecturas que hemos visto:

Aprenden representaciones de datos, no reglas explícitas.

Todas usan alguna variante de redes neuronales que transforman input en representaciones internas (vectores numéricos) que capturan relaciones y patrones. Esas representaciones se refinan mediante entrenamiento con grandes cantidades de datos y señales de error.

La diferencia entre arquitecturas está en qué tipo de datos procesan (texto, imagen, acciones), qué tipo de representaciones aprenden (tokens, conceptos, segmentos), y cómo se usan esas representaciones (generación, clasificación, acción).

El transformer sigue siendo la base de la mayoría. Pero las variantes que hemos visto — bidireccional en BERT, mezcla de expertos en MoE, representación conceptual en LCM — son el campo buscando formas mejores de aprender desde diferentes ángulos.

Una nota de honestidad sobre el ritmo del campo

Este mapa es el que existe en mayo de 2026. En seis meses probablemente habrá nuevas arquitecturas que no existen hoy, o variantes de las que existen que cambian lo que sabemos sobre sus límites.

La habilidad más útil no es memorizar esta lista. Es entender el principio que subyace a todas: representación aprendida de datos, optimizada mediante error. Con ese principio, cuando aparezca una arquitectura nueva, tendrás un marco para entender qué hace diferente y para qué sirve.

En la última entrada de esta serie llegamos a la capa de sistema: cómo se organizan múltiples modelos y herramientas en un agente complejo, y cómo funciona concretamente la arquitectura que usa Deviam.

Fuentes

Vaswani et al., Attention Is All You Need (2017) — arxiv: 1706.03762. Base transformer.
Devlin et al., BERT (2018) — arxiv: 1810.04805. MLM canónico.
Radford et al., CLIP (2021) — arxiv: 2103.00020. Base de VLMs modernos.
Kirillov et al., Segment Anything (2023) — arxiv: 2304.02643. SAM.
Jiang et al., Mixtral of Experts (2024) — arxiv: 2401.04088. MoE open source.
Abdin et al., Phi-3 Technical Report (2024) — arxiv: 2404.14219. SLM de referencia.
Wu et al., Large Concept Models (2024) — arxiv: 2412.08821. LCM Meta FAIR.
Zhang et al., xLAM (2024) — arxiv: 2402.01030. Salesforce AI Research sobre agentes de acción.

Siguiente entrada: Agentes y ADK: cómo se orquesta un sistema de 19 agentes de IA