Tokenización y Ventana de Contexto
Los LLMs no leen palabras: leen tokens —fragmentos de texto que pueden ser palabras completas, partes de palabras o incluso signos de puntuación. Todo lo que entra en una conversación —tu pregunta, el historial y las instrucciones del sistema— ocupa espacio en la ventana de contexto.
Cuando esa ventana se llena, el modelo «olvida» lo más antiguo. Entender este mecanismo cambia radicalmente cómo estructuras tus conversaciones con la IA.
El modelo nunca “lee” tu texto.
Lo convierte en números y procesa vectores matemáticos.
Detrás de cada conversación con ChatGPT o Claude hay un proceso invisible: tu texto se fragmenta en tokens, cada token se convierte en un ID numérico, ese ID se transforma en un vector de cientos de dimensiones, y solo entonces el modelo puede procesarlo. Todo ocurre en milisegundos.
Frase en Texto
Tu mensaje llega como texto plano. El tokenizador lo separa en palabras y fragmentos.
División en Tokens → IDs
Cada token se asocia a un número único en el vocabulario del modelo (50,000+ tokens).
Vectores → Procesamiento
Cada ID se convierte en un vector de 768–4096 dimensiones. Ahí vive el “significado” matemático.
Regla clave: Las palabras largas o poco comunes se dividen en subpalabras. Las palabras cortas y comunes suelen ser un solo token. El español consume más tokens que el inglés porque sus palabras son más largas — esto afecta directamente el costo y la velocidad.
📝 Frase simple en español
⚠️ “Inteligencia” se divide en 2 tokens. “Artificial” en 2. Así el modelo maneja palabras poco comunes en su vocabulario.
🇬🇧 La misma frase en inglés (referencia)
✅ La misma idea en inglés: solo 4 tokens. En español necesitamos 7. El español cuesta ~30-40% más tokens por la misma cantidad de contenido.
💻 Código fuente (muy eficiente)
🔑 El código consume tokens de forma diferente: los operadores y puntuación son tokens propios. Por eso los modelos de código se entrenan con vocabularios especiales.
🔢 Números y fechas (sorpresa)
⚠️ Los números grandes se tokenizan dígito a dígito o en grupos pequeños. Esto explica por qué los LLMs cometen errores en aritmética: ¡procesan los números como texto fragmentado, no como valores!
Analogía: Imagina que el modelo es un chef que trabaja en una mesa de cocina con tamaño fijo. Todo lo que necesita para preparar el platillo debe caber en esa mesa: la receta (instrucciones del sistema), los ingredientes que ya usó (historial) y la orden actual (tu pregunta). Cuando la mesa se llena, tiene que quitar algo para poner lo nuevo. Lo que quita es lo más viejo.
¿Qué ocupa espacio en la ventana?
System Prompt
Las instrucciones del sistema (tu rol, reglas, contexto de empresa). Siempre ocupan espacio desde el inicio.
Historial de mensajes
Todos los mensajes anteriores de la conversación, tanto los tuyos como las respuestas del modelo.
Tu pregunta actual
El mensaje que acabas de escribir, incluyendo cualquier archivo, imagen o documento que adjuntes.
Documentos adjuntos
PDFs, imágenes, código o textos que subes al chat. Un PDF de 50 páginas puede consumir 25,000+ tokens.
Ventana de contexto por modelo
≈ 300 páginas de texto
≈ 500 páginas · El mejor para documentos largos
≈ 300 páginas de texto
≈ 2,500 páginas · Para proyectos de código completos
≈ 5,000 páginas · Mayor ventana disponible hoy
Concepto clave: Grounding (Anclaje)
Técnica que conecta la IA a fuentes externas reales —internet, documentos, bases de datos— para reducir errores y alucinaciones. En lugar de depender solo de lo que “aprendió” durante el entrenamiento, el modelo puede consultar información actual y verificable en tiempo real.
🔍 Grounding con búsqueda web
Perplexity, Gemini y ChatGPT con búsqueda activa: el modelo busca en internet antes de responder. Ideal para información actual, noticias y datos que cambian frecuentemente.
📄 Grounding con documentos propios
NotebookLM lo lleva al extremo: solo responde con base en los documentos que tú subes. Si la información no está en tus archivos, no la inventa. Ideal para contratos, manuales y reportes internos.
🗄️ Grounding con bases de datos
Conectar el modelo a tu CRM, ERP o base de datos interna mediante APIs. El modelo consulta datos reales y actualizados de tu empresa para responder con precisión.
🧠 RAG — Retrieval Augmented Generation
Técnica avanzada donde un sistema busca los fragmentos más relevantes de una base de conocimiento y los inyecta en el contexto del modelo antes de generar la respuesta.
Pon lo más importante al principio Y al final
Los LLMs tienen una tendencia conocida como “sesgo posicional”: prestan más atención al inicio y al final del contexto. Si tienes instrucciones críticas, repítelas al final del prompt además de al inicio.
Inicia conversación nueva cuando cambies de tema
Una conversación larga acumula tokens. Si cambias de proyecto o tema, empieza un chat nuevo. El historial irrelevante no ayuda al modelo —lo distrae y consume espacio de contexto valioso.
Pide resúmenes para “comprimir” conversaciones largas
Cuando sientas que la conversación es larga, pide al modelo: “Resume los acuerdos y conclusiones de esta conversación en un párrafo”. Copia ese resumen y pégalo en un chat nuevo como contexto inicial. Liberas tokens sin perder información.
Sé selectivo con lo que adjuntas
Un PDF de 100 páginas puede consumir 50,000+ tokens de tu ventana de contexto. Si solo necesitas una sección, copia y pega solo esa parte. Usa NotebookLM para documentos extensos que necesitas consultar frecuentemente.
Usa “contexto maestro” para sesiones de trabajo
Crea un bloque de texto con todo lo que el modelo necesita saber sobre ti o tu empresa: nombre, industria, tono de comunicación, proyectos activos. Pégalo al inicio de cada sesión importante en lugar de explicarlo cada vez.
La ventana de contexto de Gemini 1.5 Flash podría contener toda la saga de Harry Potter… 3 veces
La saga completa de Harry Potter tiene aproximadamente 1,084,170 palabras. Con 2 millones de tokens, Gemini 1.5 Flash podría procesar simultáneamente esas 7 novelas unas 3 veces completas en un solo contexto.
Para referencia: GPT-3 (2020) tenía solo 4,096 tokens de contexto. En 4 años, la ventana de contexto creció 500 veces. Esto no es un detalle técnico menor: es lo que hace posible analizar contratos completos, bases de código enteras o transcripciones de reuniones en un solo prompt.
🎯 Lo que debes recordar de este tema
Token ≠ palabra
Los tokens son fragmentos variables. El español consume más tokens que el inglés para el mismo contenido.
Todo es matemática
Tu texto → tokens → IDs numéricos → vectores de alta dimensión. El modelo nunca procesa letras.
La ventana tiene límite
Todo en la conversación ocupa espacio. Cuando se llena, el modelo olvida lo más antiguo.
Grounding reduce errores
Conectar el modelo a fuentes reales (web, documentos, BD) elimina alucinaciones sobre hechos verificables.
Los tokens tienen costo
En APIs de producción se paga por token. Gestionar el contexto eficientemente reduce costos significativamente.
Por eso falla en matemáticas
Los números se tokenizan como texto. El modelo predice dígitos, no calcula. Por eso necesita Code Interpreter.