Lección 4, Tema 1

En Progreso

← Anterior

1.2.1 Los Modelos de Lenguaje Grande (LLMs)

Progreso del Lección

0% Completado

1.2.1 Los Modelos de Lenguaje Grande (LLM)

Tema 1.2.1 · Módulo 1 — Fundamentos de IA

Los Modelos de Lenguaje Grande (LLM)

Un LLM (Large Language Model) es el motor que impulsa a ChatGPT, Claude, Gemini y Deepseek. Entender cómo funciona —aunque sea a nivel conceptual— cambia completamente la forma en que los usas. La diferencia entre un usuario promedio y un usuario experto está en saber qué hay detrás.

La idea central es deceptivamente simple: un LLM es un sistema entrenado con cantidades masivas de texto para predecir, token a token, cuál es la continuación más probable de una secuencia. No “entiende” en sentido humano: calcula probabilidades estadísticas con una sofisticación extraordinaria.

Un LLM no “piensa”.
Predice el siguiente token con probabilidad.

Cuando le escribes “La inteligencia artificial es…” el modelo no busca en una base de datos ni razona como un humano. Calcula: dado todo lo que aprendí, ¿qué palabra tiene mayor probabilidad de seguir aquí? Y lo hace token a token, a una velocidad de decenas de miles de palabras por segundo.

⚙️ Así genera texto un LLM — Token a Token

📥 Tu prompt de entrada

Lainteligenciaartificiales ___

↓

🎲 El modelo calcula probabilidades para el siguiente token

“una tecnología”

40%

“un campo”

30%

“el futuro”

20%

“una herramienta”

10%

↓

✅ Token seleccionado → proceso se repite hasta completar la respuesta

“La inteligencia artificial es una tecnología que transforma el mundo.”

🔤 ¿Qué es exactamente un “token”?

Analogía: Si las palabras son ladrillos, los tokens son los fragmentos en que el modelo divide esos ladrillos antes de procesarlos. A veces un token = una palabra. A veces = media palabra. A veces = varios caracteres. El modelo no “lee” texto como tú: lo descompone en piezas numéricas.

📏

1 token ≈ 0.75 palabras

En inglés. En español los textos suelen consumir un 15-20% más de tokens por la longitud de las palabras.

💰

El costo se mide en tokens

Las APIs de IA cobran por tokens procesados — tanto los que envías (input) como los que recibes (output).

🧠

La “memoria” también se mide así

La ventana de contexto (cuánto puede “recordar” el modelo) se mide en tokens: Claude tiene 200,000.

🔢

Internamente son números

Cada token se convierte en un número (ID) y luego en un vector matemático. El modelo nunca procesa letras, solo números.

🔍 Ejemplo: así tokeniza un LLM la frase “La inteligencia artificial transforma negocios”

La intel igencia artific ial transforma neg ocios

Nota: palabras largas se dividen en sub-tokens. “inteligencia” → [“intel”, “igencia”]. Cada color representa un token diferente.

🏗️ ¿Cómo se entrena un LLM? Las 3 fases

Analogía: Imagina que tienes que preparar al mejor corrector de textos del mundo. Primero lo haces leer toda la biblioteca del mundo (preentrenamiento). Luego lo entrenas específicamente para conversar bien (ajuste fino). Finalmente, le pides a miles de personas que califiquen sus respuestas para que aprenda qué le gusta a los humanos (RLHF).

Preentrenamiento — “Leer todo internet”

El modelo procesa billones de páginas web, libros, artículos científicos, código fuente y conversaciones. Su único objetivo: predecir el siguiente token. Con este proceso, “absorbe” gramática, hechos, razonamiento y patrones lingüísticos de toda la cultura humana escrita. GPT-4 fue entrenado con ~13 billones de tokens. Costo estimado: más de 100 millones de dólares.

Ajuste Fino (Fine-tuning) — “Aprender a conversar”

El modelo preentrenado sabe mucho, pero responde de forma extraña. En esta fase, se le muestra cómo debería responder a instrucciones específicas: ejemplos de preguntas y respuestas ideales curadas por humanos. Esto lo convierte de “predictor de texto” a “asistente útil”. Es como darle clases de servicio al cliente a alguien muy inteligente pero sin modales.

RLHF — “Aprender de los pulgares arriba y abajo”

Reinforcement Learning from Human Feedback. Evaluadores humanos califican múltiples respuestas del modelo. Esas calificaciones se usan para entrenar un “modelo de recompensa” que predice qué respuestas son preferidas. El LLM luego se optimiza para maximizar esa recompensa. Es el proceso que hace que ChatGPT y Claude sean útiles, honestos y seguros —en lugar de solo predecir texto.

⚖️ Qué puede hacer un LLM — y qué no puede

✅ Lo que hace extraordinariamente bien

Generar y editar texto en cualquier tono, formato y estilo
Resumir documentos extensos en segundos
Traducir con adaptación cultural, no solo literal
Escribir y depurar código en docenas de lenguajes
Hacer brainstorming y generar ideas creativas
Explicar conceptos complejos con analogías simples
Responder preguntas sobre su corpus de entrenamiento
Seguir instrucciones complejas y estructuradas
Analizar documentos que le compartes en el chat

❌ Lo que NO puede hacer (y finge que sí)

Acceder a internet en tiempo real (sin plugins)
Recordar conversaciones anteriores entre sesiones
Conocer eventos posteriores a su fecha de corte
Verificar si lo que dice es verdad o no
Razonar matemáticamente con precisión siempre
Saber cuándo no sabe algo (puede alucinar con confianza)
Tener experiencias, emociones o conciencia real
Aprender de tu conversación para el futuro
Actuar en el mundo sin herramientas adicionales

🏆 Los principales LLMs que usarás en el diplomado

Modelo	Empresa	Fortaleza principal	Contexto	Mejor para…
GPT-4o	OpenAI	Versatilidad y ecosistema	128K tokens	Redacción Imágenes Código
Claude 3.5 Sonnet	Anthropic	Documentos extensos y precisión	200K tokens	Análisis Contratos Escritura larga
Gemini 1.5 Pro	Google	Integración Google + búsqueda	1M tokens	Gmail/Docs Búsqueda real Video
DeepSeek R1	DeepSeek	Razonamiento paso a paso	128K tokens	Matemáticas Lógica Análisis
Qwen 3	Alibaba	Multilingüe + visión OCR	128K tokens	Facturas Traducción Imágenes

⚠️ Las 4 limitaciones que debes dominar para no cometer errores

🌀 Alucinaciones

El modelo genera texto con total confianza aunque sea falso. Puede inventar citas, estadísticas, nombres de personas o eventos históricos que nunca ocurrieron.

💡 Regla de oro: nunca uses datos críticos sin verificar en una fuente primaria. El LLM no sabe lo que no sabe.

📅 Fecha de corte (Cutoff)

El modelo solo conoce información hasta su fecha de entrenamiento. Preguntarle sobre eventos recientes puede producir respuestas obsoletas o inventadas.

💡 Para información actual usa Perplexity, Gemini con búsqueda activa, o el modo web de ChatGPT.

🧮 Matemáticas y lógica exacta

Los LLMs son predictos de texto, no calculadoras. Fallan en aritmética compleja, problemas de conteo y razonamiento espacial preciso con cierta frecuencia.

💡 Para cálculos críticos usa Code Interpreter de ChatGPT o pídele que ejecute código Python para verificar el resultado.

🧠 Sin memoria entre sesiones

Cada conversación nueva empieza desde cero. El modelo no recuerda lo que le contaste ayer, el nombre de tu empresa ni tus preferencias previas.

💡 Usa Instrucciones Personalizadas (Custom Instructions) o crea un “contexto maestro” que pegas al inicio de cada sesión importante.

🤯

Dato que cambia la perspectiva

GPT-4 procesó más texto en su entrenamiento del que un humano podría leer en 300,000 años

Se estima que GPT-4 fue entrenado con alrededor de 13 billones de tokens — equivalente a unos 10 billones de palabras. Leyendo 24 horas al día, 365 días al año, un humano lee aproximadamente 33 millones de palabras en toda su vida. El modelo absorbió el equivalente a 300,000 vidas de lectura continua.

¿Por qué importa? Porque explica tanto su capacidad extraordinaria (ha “visto” casi todo el conocimiento escrito humano) como sus limitaciones (solo “vio” texto —no experimentó el mundo, no tiene cuerpo, no vivió nada).

🎯 ¿Por qué importa entender cómo funciona un LLM?

✍️

Mejores prompts

Saber que el modelo predice tokens te ayuda a estructurar prompts que “guían” esa predicción hacia el resultado que necesitas.

🚨

Detectar alucinaciones

Entender que no “sabe” sino que “predice” te pone en alerta ante datos específicos sin fuente verificable.

🎛️

Elegir la herramienta correcta

Cada LLM tiene fortalezas distintas. Conocer su arquitectura te ayuda a elegir el modelo correcto para cada tarea.

📊

Gestionar el contexto

Entender los tokens te permite usar eficientemente la ventana de contexto y no desperdiciar capacidad del modelo.

🛡️

Protegerte de errores costosos

Quien entiende las limitaciones del modelo no toma decisiones críticas basadas ciegamente en su output.

🚀

Escalar tu productividad

Los mejores usuarios de IA no son los que más usan el modelo —son los que entienden cómo sacarle el máximo provecho.

Inteligencia Artificial y Automatización Nivel 1

Bienvenida

Participantes 666

1.2.1 Los Modelos de Lenguaje Grande (LLMs)

Los Modelos de Lenguaje Grande (LLM)

Un LLM no “piensa”.
Predice el siguiente token con probabilidad.

1 token ≈ 0.75 palabras

El costo se mide en tokens

La “memoria” también se mide así

Internamente son números

Preentrenamiento — “Leer todo internet”

Ajuste Fino (Fine-tuning) — “Aprender a conversar”

RLHF — “Aprender de los pulgares arriba y abajo”

✅ Lo que hace extraordinariamente bien

❌ Lo que NO puede hacer (y finge que sí)

🌀 Alucinaciones

📅 Fecha de corte (Cutoff)

🧮 Matemáticas y lógica exacta

🧠 Sin memoria entre sesiones

GPT-4 procesó más texto en su entrenamiento del que un humano podría leer en 300,000 años

🎯 ¿Por qué importa entender cómo funciona un LLM?

Mejores prompts

Detectar alucinaciones

Elegir la herramienta correcta

Gestionar el contexto

Protegerte de errores costosos

Escalar tu productividad

Inteligencia Artificial y Automatización Nivel 1

Bienvenida

Participantes 666

1.2.1 Los Modelos de Lenguaje Grande (LLMs)

Los Modelos de Lenguaje Grande (LLM)

Un LLM no “piensa”.Predice el siguiente token con probabilidad.

1 token ≈ 0.75 palabras

El costo se mide en tokens

La “memoria” también se mide así

Internamente son números

Preentrenamiento — “Leer todo internet”

Ajuste Fino (Fine-tuning) — “Aprender a conversar”

RLHF — “Aprender de los pulgares arriba y abajo”

✅ Lo que hace extraordinariamente bien

❌ Lo que NO puede hacer (y finge que sí)

🌀 Alucinaciones

📅 Fecha de corte (Cutoff)

🧮 Matemáticas y lógica exacta

🧠 Sin memoria entre sesiones

GPT-4 procesó más texto en su entrenamiento del que un humano podría leer en 300,000 años

🎯 ¿Por qué importa entender cómo funciona un LLM?

Mejores prompts

Detectar alucinaciones

Elegir la herramienta correcta

Gestionar el contexto

Protegerte de errores costosos

Escalar tu productividad

Un LLM no “piensa”.
Predice el siguiente token con probabilidad.