Lección 3, Tema 2

En Progreso

← Anterior

1.1.2 Los Tres Paradigmas de Aprendizaje

Progreso del Lección

0% Completado

Tema 1.1.2 · Fundamentos de IA

Los Tres Paradigmas de Aprendizaje

La IA no “aprende” de una sola manera. Según los datos disponibles y el tipo de retroalimentación que recibe, opera bajo tres paradigmas completamente distintos. Entenderlos te ayudará a saber qué herramienta está haciendo qué —y por qué— cada vez que la usas.

Paradigma 1

Aprendizaje Supervisado

La IA aprende con datos etiquetados: entrada + respuesta correcta ya conocida.

🏫

¿Cómo funciona?

Analogía: Es como aprender con un maestro que te corrige ejercicio por ejercicio. Le muestras 10,000 fotos de gatos y perros, le dices cuál es cuál, y el sistema aprende a distinguirlos solo.

El modelo recibe pares de datos: entrada → salida correcta. Con cada ejemplo aprende a ajustar sus predicciones hasta minimizar el error. Al final puede predecir la salida correcta para datos que nunca ha visto.

Aplicaciones reales

📧 Filtro de spam: aprende de miles de correos marcados como “spam” o “no spam”
🩺 Diagnóstico médico: clasifica imágenes de tumores como maligno o benigno
🎭 Reconocimiento facial: asocia rasgos físicos con identidades etiquetadas
💳 Detección de fraude: aprende patrones de transacciones fraudulentas confirmadas

⚠️ Requisito clave: Necesitas datos etiquetados en cantidad suficiente. Sin etiquetas correctas, el modelo no puede aprender.

Ejemplo paso a paso

🏥 Caso: Detección de tumor maligno

10,000 imágenes
de tumores

→

Cada una
etiquetada

→

Modelo
entrena

→

Predice en
imagen nueva

📧 Caso: Filtro de spam en Gmail

Millones de
emails

→

“spam” /
“no spam”

→

Aprende
patrones

→

Clasifica
automático

💡 En tu vida diaria: Cada vez que marcas un email como spam en Gmail, estás etiquetando un dato que ayuda al modelo supervisado a mejorar para todos los usuarios.

Paradigma 2

Aprendizaje No Supervisado

La IA encuentra patrones ocultos en datos sin etiquetas, sin que nadie le diga qué buscar.

🔍

¿Cómo funciona?

Analogía: Es como un investigador que recibe miles de documentos sin clasificar y los agrupa en carpetas por similitud —sin saber de antemano cuántas carpetas habrá ni qué contendrán.

No hay respuestas correctas pre-definidas. El modelo descubre la estructura oculta en los datos por sí solo: agrupa elementos similares (clustering), reduce dimensiones o detecta anomalías que se alejan del patrón general.

Aplicaciones reales

🛒 Segmentación de clientes: agrupa compradores por comportamiento sin decirle al sistema cuántos grupos hay
🔒 Detección de fraude en tiempo real: identifica transacciones que no encajan en ningún patrón normal
📈 Análisis de tendencias: descubre temas emergentes en millones de textos sin categorías previas
🎵 Recomendadores: Spotify agrupa canciones por características sin que nadie les enseñe qué es un “género”

⚠️ Requisito clave: Grandes volúmenes de datos no estructurados. Con pocos datos, los patrones encontrados pueden ser irrelevantes o erróneos.

Ejemplo paso a paso

🛒 Caso: Segmentación de clientes en e-commerce

100,000
clientes

→

Sin
etiquetas

→

Modelo
agrupa

→

4 perfiles
descubiertos

👑 VIP fiel

🕶️ Cazador de ofertas

😴 Inactivo en riesgo

🆕 Nuevo explorador

💡 En tu vida diaria: Cuando Netflix te recomienda una serie que “no tiene nada que ver” con lo que pediste, es clustering no supervisado detectando que personas con tu patrón de consumo también vieron esa serie.

Paradigma 3

Aprendizaje por Refuerzo (RL) y RLHF

La IA aprende por prueba y error: recibe recompensas cuando acierta y penalizaciones cuando falla.

🏆

¿Cómo funciona?

Analogía: Es como entrenar a un perro: cuando hace algo bien recibe un premio, cuando falla no lo recibe. El sistema aprende a maximizar sus “premios” explorando miles de millones de pruebas.

El agente toma decisiones en un entorno, recibe una señal de recompensa y ajusta su estrategia. A diferencia del supervisado, no necesita datos etiquetados: aprende de su propia experiencia de ensayo y error.

Aplicaciones reales

♟️ AlphaGo: aprendió a jugar Go probando movidas y recibiendo recompensas por ganar
🤖 Robótica: robots aprenden a caminar y manipular objetos por prueba y error virtual
🎮 Videojuegos: la IA de personajes que mejoran con cada partida que juegas
🚗 Autos autónomos: aprenden a conducir en simuladores antes de salir a la calle

⚠️ Requisito clave: Un entorno donde el agente pueda actuar, recibir retroalimentación y repetir millones de veces. Computacionalmente muy costoso.

El caso AlphaGo — Historia real

♟️ De cero a campeón mundial

Reglas
del Go

→

Millones de
partidas solo

→

Recompensa:
ganar

→

Jugada 37
nunca vista

🧠

¿Qué es RLHF? Reinforcement Learning from Human Feedback. Es la variante que hace que ChatGPT y Claude respondan de forma útil y segura. Humanos evalúan las respuestas del modelo (👍/👎), esas evaluaciones se convierten en señales de recompensa, y el modelo aprende a responder mejor.

💡 En tu vida diaria: Cada vez que haces clic en 👍 o 👎 en ChatGPT, estás entrenando al modelo mediante RLHF — dándole una señal de qué respuestas son mejores.

🔥

Dato Curioso

AlphaGo inventó movidas que ningún humano había pensado en 3,000 años

En 2016, AlphaGo (Google DeepMind) derrotó al campeón mundial Lee Sedol 4-1. La famosa “Jugada 37” del segundo partido dejó a los expertos en silencio: era una movida que ningún humano habría hecho —considerada un error por los comentaristas— y resultó ser genial. AlphaGo la descubrió porque no tenía los sesgos que acumula 3,000 años de historia del juego. Solo tenía refuerzo puro.

📊 Resumen comparativo de los tres paradigmas

Característica	🏫 Supervisado	🔍 No Supervisado	🏆 Refuerzo / RLHF
¿Necesita etiquetas?	Sí, siempre	No	No (solo recompensas)
¿Cómo aprende?	Ejemplos corregidos	Patrones ocultos	Prueba y error
Datos requeridos	Etiquetados y limpios	Masivos sin etiquetar	Entorno interactivo
Ejemplo conocido	Filtro de spam Gmail	Recomendaciones Spotify	ChatGPT, AlphaGo
Tu rol como usuario	Marcar correos como spam	Usar la app (genera datos)	Dar 👍/👎 al modelo

Inteligencia Artificial y Automatización Nivel 1

Bienvenida

Participantes 668

1.1.2 Los Tres Paradigmas de Aprendizaje

Los Tres Paradigmas de Aprendizaje

Aprendizaje Supervisado

Aprendizaje No Supervisado

Aprendizaje por Refuerzo (RL) y RLHF

AlphaGo inventó movidas que ningún humano había pensado en 3,000 años