Lección 4, Tema 2

En Progreso

← Anterior

1.2.2 Tokenización y Ventana de Contexto

Progreso del Lección

0% Completado

Tema 1.2.2 · Módulo 1 — Fundamentos de IA

Tokenización y Ventana de Contexto

Los LLMs no leen palabras: leen tokens —fragmentos de texto que pueden ser palabras completas, partes de palabras o incluso signos de puntuación. Todo lo que entra en una conversación —tu pregunta, el historial y las instrucciones del sistema— ocupa espacio en la ventana de contexto.

Cuando esa ventana se llena, el modelo «olvida» lo más antiguo. Entender este mecanismo cambia radicalmente cómo estructuras tus conversaciones con la IA.

El modelo nunca “lee” tu texto.
Lo convierte en números y procesa vectores matemáticos.

Detrás de cada conversación con ChatGPT o Claude hay un proceso invisible: tu texto se fragmenta en tokens, cada token se convierte en un ID numérico, ese ID se transforma en un vector de cientos de dimensiones, y solo entonces el modelo puede procesarlo. Todo ocurre en milisegundos.

⚙️ El proceso completo: De tu texto al modelo — 3 pasos

Fase 1

Frase en Texto

Tu mensaje llega como texto plano. El tokenizador lo separa en palabras y fragmentos.

La inteli gencia artific ial es increíble

Fase 2

División en Tokens → IDs

Cada token se asocia a un número único en el vocabulario del modelo (50,000+ tokens).

2324 57388 11205 1215 518 323 24323

Fase 3

Vectores → Procesamiento

Cada ID se convierte en un vector de 768–4096 dimensiones. Ahí vive el “significado” matemático.

[0.23, -0.87, 1.42…] [1.05, 0.33, -0.61…] [0.78, -1.20, 0.94…]

🔍 Cómo tokeniza el modelo — Ejemplos reales

Regla clave: Las palabras largas o poco comunes se dividen en subpalabras. Las palabras cortas y comunes suelen ser un solo token. El español consume más tokens que el inglés porque sus palabras son más largas — esto afecta directamente el costo y la velocidad.

📝 Frase simple en español

La#2324

intel#57388

igencia#11205

artific#1215

ial#518

es#323

increíble#24323

7 tokens

⚠️ “Inteligencia” se divide en 2 tokens. “Artificial” en 2. Así el modelo maneja palabras poco comunes en su vocabulario.

🇬🇧 La misma frase en inglés (referencia)

Artificial#3116

intelligence#4454

is#318

incredible#6909

4 tokens

✅ La misma idea en inglés: solo 4 tokens. En español necesitamos 7. El español cuesta ~30-40% más tokens por la misma cantidad de contenido.

💻 Código fuente (muy eficiente)

def#4299

calcular#2871

(#7

x#87

):#1058

5 tokens

🔑 El código consume tokens de forma diferente: los operadores y puntuación son tokens propios. Por eso los modelos de código se entrenan con vocabularios especiales.

🔢 Números y fechas (sorpresa)

2024#7342

–#12

11#1157

–#12

30#966

5 tokens

⚠️ Los números grandes se tokenizan dígito a dígito o en grupos pequeños. Esto explica por qué los LLMs cometen errores en aritmética: ¡procesan los números como texto fragmentado, no como valores!

🪟 La Ventana de Contexto — La “memoria de trabajo” del modelo

Analogía: Imagina que el modelo es un chef que trabaja en una mesa de cocina con tamaño fijo. Todo lo que necesita para preparar el platillo debe caber en esa mesa: la receta (instrucciones del sistema), los ingredientes que ya usó (historial) y la orden actual (tu pregunta). Cuando la mesa se llena, tiene que quitar algo para poner lo nuevo. Lo que quita es lo más viejo.

¿Qué ocupa espacio en la ventana?

⚙️

System Prompt

Las instrucciones del sistema (tu rol, reglas, contexto de empresa). Siempre ocupan espacio desde el inicio.

💬

Historial de mensajes

Todos los mensajes anteriores de la conversación, tanto los tuyos como las respuestas del modelo.

✍️

Tu pregunta actual

El mensaje que acabas de escribir, incluyendo cualquier archivo, imagen o documento que adjuntes.

📄

Documentos adjuntos

PDFs, imágenes, código o textos que subes al chat. Un PDF de 50 páginas puede consumir 25,000+ tokens.

📊 Visualización de la ventana de contexto en uso real

Conversación de 30 minutos — Claude (200K tokens) ~68% usado

SYS

HISTORIAL

TU PREGUNTA

LIBRE

System prompt (~16K tokens)

Historial (~90K tokens)

Prompt actual (~30K tokens)

Espacio libre (~64K tokens)

Ventana de contexto por modelo

GPT-4o

128K tokens

≈ 300 páginas de texto

Claude 3.5

200K tokens

≈ 500 páginas · El mejor para documentos largos

DeepSeek R1

128K tokens

≈ 300 páginas de texto

Gemini 1.5 Pro

1M tokens

≈ 2,500 páginas · Para proyectos de código completos

Gemini 1.5 Flash

2M tokens

≈ 5,000 páginas · Mayor ventana disponible hoy

⚓

Concepto clave: Grounding (Anclaje)

Técnica que conecta la IA a fuentes externas reales —internet, documentos, bases de datos— para reducir errores y alucinaciones. En lugar de depender solo de lo que “aprendió” durante el entrenamiento, el modelo puede consultar información actual y verificable en tiempo real.

🔍 Grounding con búsqueda web

Perplexity, Gemini y ChatGPT con búsqueda activa: el modelo busca en internet antes de responder. Ideal para información actual, noticias y datos que cambian frecuentemente.

📄 Grounding con documentos propios

NotebookLM lo lleva al extremo: solo responde con base en los documentos que tú subes. Si la información no está en tus archivos, no la inventa. Ideal para contratos, manuales y reportes internos.

🗄️ Grounding con bases de datos

Conectar el modelo a tu CRM, ERP o base de datos interna mediante APIs. El modelo consulta datos reales y actualizados de tu empresa para responder con precisión.

🧠 RAG — Retrieval Augmented Generation

Técnica avanzada donde un sistema busca los fragmentos más relevantes de una base de conocimiento y los inyecta en el contexto del modelo antes de generar la respuesta.

💡 5 consejos para gestionar tokens y contexto como experto

Pon lo más importante al principio Y al final

Los LLMs tienen una tendencia conocida como “sesgo posicional”: prestan más atención al inicio y al final del contexto. Si tienes instrucciones críticas, repítelas al final del prompt además de al inicio.

Inicia conversación nueva cuando cambies de tema

Una conversación larga acumula tokens. Si cambias de proyecto o tema, empieza un chat nuevo. El historial irrelevante no ayuda al modelo —lo distrae y consume espacio de contexto valioso.

Pide resúmenes para “comprimir” conversaciones largas

Cuando sientas que la conversación es larga, pide al modelo: “Resume los acuerdos y conclusiones de esta conversación en un párrafo”. Copia ese resumen y pégalo en un chat nuevo como contexto inicial. Liberas tokens sin perder información.

Sé selectivo con lo que adjuntas

Un PDF de 100 páginas puede consumir 50,000+ tokens de tu ventana de contexto. Si solo necesitas una sección, copia y pega solo esa parte. Usa NotebookLM para documentos extensos que necesitas consultar frecuentemente.

Usa “contexto maestro” para sesiones de trabajo

Crea un bloque de texto con todo lo que el modelo necesita saber sobre ti o tu empresa: nombre, industria, tono de comunicación, proyectos activos. Pégalo al inicio de cada sesión importante en lugar de explicarlo cada vez.

📐

Dato que cambia la perspectiva

La ventana de contexto de Gemini 1.5 Flash podría contener toda la saga de Harry Potter… 3 veces

La saga completa de Harry Potter tiene aproximadamente 1,084,170 palabras. Con 2 millones de tokens, Gemini 1.5 Flash podría procesar simultáneamente esas 7 novelas unas 3 veces completas en un solo contexto.

Para referencia: GPT-3 (2020) tenía solo 4,096 tokens de contexto. En 4 años, la ventana de contexto creció 500 veces. Esto no es un detalle técnico menor: es lo que hace posible analizar contratos completos, bases de código enteras o transcripciones de reuniones en un solo prompt.

🎯 Lo que debes recordar de este tema

🔤

Token ≠ palabra

Los tokens son fragmentos variables. El español consume más tokens que el inglés para el mismo contenido.

🔢

Todo es matemática

Tu texto → tokens → IDs numéricos → vectores de alta dimensión. El modelo nunca procesa letras.

🪟

La ventana tiene límite

Todo en la conversación ocupa espacio. Cuando se llena, el modelo olvida lo más antiguo.

⚓

Grounding reduce errores

Conectar el modelo a fuentes reales (web, documentos, BD) elimina alucinaciones sobre hechos verificables.

💸

Los tokens tienen costo

En APIs de producción se paga por token. Gestionar el contexto eficientemente reduce costos significativamente.

🧮

Por eso falla en matemáticas

Los números se tokenizan como texto. El modelo predice dígitos, no calcula. Por eso necesita Code Interpreter.

Inteligencia Artificial y Automatización Nivel 1

Bienvenida

Participantes 669

1.2.2 Tokenización y Ventana de Contexto

Tokenización y Ventana de Contexto

El modelo nunca “lee” tu texto.
Lo convierte en números y procesa vectores matemáticos.

Frase en Texto

División en Tokens → IDs

Vectores → Procesamiento

📝 Frase simple en español

🇬🇧 La misma frase en inglés (referencia)

💻 Código fuente (muy eficiente)

🔢 Números y fechas (sorpresa)

¿Qué ocupa espacio en la ventana?

System Prompt

Historial de mensajes

Tu pregunta actual

Documentos adjuntos

Concepto clave: Grounding (Anclaje)

🔍 Grounding con búsqueda web

📄 Grounding con documentos propios

🗄️ Grounding con bases de datos

🧠 RAG — Retrieval Augmented Generation

Pon lo más importante al principio Y al final

Inicia conversación nueva cuando cambies de tema

Pide resúmenes para “comprimir” conversaciones largas

Sé selectivo con lo que adjuntas

Usa “contexto maestro” para sesiones de trabajo

La ventana de contexto de Gemini 1.5 Flash podría contener toda la saga de Harry Potter… 3 veces

🎯 Lo que debes recordar de este tema

Token ≠ palabra

Todo es matemática

La ventana tiene límite

Grounding reduce errores

Los tokens tienen costo

Por eso falla en matemáticas

Inteligencia Artificial y Automatización Nivel 1

Bienvenida

Participantes 669

1.2.2 Tokenización y Ventana de Contexto

Tokenización y Ventana de Contexto

El modelo nunca “lee” tu texto.Lo convierte en números y procesa vectores matemáticos.

Frase en Texto

División en Tokens → IDs

Vectores → Procesamiento

📝 Frase simple en español

🇬🇧 La misma frase en inglés (referencia)

💻 Código fuente (muy eficiente)

🔢 Números y fechas (sorpresa)

¿Qué ocupa espacio en la ventana?

System Prompt

Historial de mensajes

Tu pregunta actual

Documentos adjuntos

Concepto clave: Grounding (Anclaje)

🔍 Grounding con búsqueda web

📄 Grounding con documentos propios

🗄️ Grounding con bases de datos

🧠 RAG — Retrieval Augmented Generation

Pon lo más importante al principio Y al final

Inicia conversación nueva cuando cambies de tema

Pide resúmenes para “comprimir” conversaciones largas

Sé selectivo con lo que adjuntas

Usa “contexto maestro” para sesiones de trabajo

La ventana de contexto de Gemini 1.5 Flash podría contener toda la saga de Harry Potter… 3 veces

🎯 Lo que debes recordar de este tema

Token ≠ palabra

Todo es matemática

La ventana tiene límite

Grounding reduce errores

Los tokens tienen costo

Por eso falla en matemáticas

El modelo nunca “lee” tu texto.
Lo convierte en números y procesa vectores matemáticos.