Quítale la magia. Entiende qué son, cómo funcionan y qué implica ejecutar LLMs reales, desde el concepto hasta el bit que viaja por un bus de silicio.
Es matemáticas sobre silicio. Todo se puede medir, todo se puede explicar.
Parámetros, memoria, cuantización y la calculadora de VRAM. ¿Cuánto ocupa un modelo? ¿En qué GPU cabe?
Explorar → 🔌El bus de memoria, el ancho de banda, la jerarquía completa y por qué la inferencia es memory-bound.
Explorar → 🏗️Atención, Feed-Forward, el bloque completo y cómo se ensamblan 32 capas para formar un LLM.
Explorar → ⚡Bucle autoregresivo, KV Cache, velocidad real y la calculadora de tokens/s para tu GPU.
Explorar → 🔤De texto a números, BPE, el espacio semántico 3D y cómo las palabras encuentran su lugar.
Explorar → 📚Pre-training, SFT, RLHF, alucinaciones y por qué el modelo no sabe qué es verdad.
Explorar →Un LLM es una máquina que predice la siguiente palabra.
No "piensa", no "razona", no "entiende" como un humano. Simplemente:
💡 Eso es todo. La magia está en cómo hace ese cálculo. Y de eso trata esta guía: desmontar la máquina pieza por pieza.
"Un LLM no es magia. Es matemáticas sobre silicio. El conocimiento cabe en números que viajan por autopistas de bits a velocidades finitas. Todo se puede medir, todo se puede explicar."
— Filosofía del proyecto