AutomatizaciónLatAm
← Inteligencia Artificial

Nous Research presenta Lighthouse Attention: aceleración de 1.4–1.7× en preentrenamiento

16 de mayo de 2026 · Fuente original: MarkTechPost

Nous Research presenta Lighthouse Attention: aceleración de 1.4–1.7× en preentrenamiento — Inteligencia Artificial

Nous Research introduce Lighthouse Attention, un mecanismo de atención jerárquica que optimiza el preentrenamiento de modelos de lenguaje en contextos largos. La técnica reduce la complejidad computacional y se aplica solo durante el entrenamiento, logrando aceleraciones significativas sin degradar

Contexto: El desafío de la atención en contextos largos

Durante el preentrenamiento de modelos de lenguaje de gran escala, el mecanismo de atención estándar (scaled dot-product attention) se convierte en un cuello de botella computacional cuando se trabaja con secuencias largas. La complejidad cuadrática de la atención tradicional (O(N²)) escala rápidamente, consumiendo memoria y tiempo de procesamiento de forma prohibitiva. Investigadores anteriores propusieron alternativas como NSA e HISA que optimizan claves y valores, pero Nous Research ha explorado una estrategia diferente.

Lighthouse Attention: un enfoque jerárquico selectivo

Lighthouse Attention es un mecanismo de selección jerárquica que actúa solo durante el preentrenamiento y se desactiva en inferencia. Su característica principal es procesar consultas (Q), claves (K) y valores (V) de manera simétrica a través de una pirámide multiescala, en lugar de optimizar solo K y V como en métodos precedentes. Esta arquitectura reduce la complejidad de O(N·S·d) a O(S²·d), donde S representa el tamaño de una subsecuencia densa sobre la que se ejecuta FlashAttention de forma estándar.

Resultados experimentales y rendimiento

Los experimentos se realizaron con un modelo estilo Llama-3 de 530 millones de parámetros operando a 98K tokens de contexto. Los resultados muestran aceleraciones de 1.40× a 1.69× en tiempo real de pared (wall-clock) comparado contra un baseline de SDPA con cuDNN. Crucialmente, estas ganancias de velocidad se logran manteniendo o incluso reduciendo la pérdida de entrenamiento final, lo que indica que la aproximación jerárquica no sacrifica la calidad del modelo preentrenado.

La elegancia del método radica en su naturaleza exclusiva de entrenamiento: una vez completado el preentrenamiento, Lighthouse se retira completamente, permitiendo que el modelo funcione con la arquitectura estándar sin sobrecarga adicional en inferencia. Esta característica contrasta con métodos que requieren mantener aproximaciones durante todo el ciclo de vida del modelo.

Implicaciones para investigadores y desarrolladores

Para equipos de IA en América Latina, esta innovación abre oportunidades concretas en tres frentes. Primero, reduce significativamente el costo computacional de preentrenamiento, factor crítico cuando se entrena con recursos limitados o hardware de nivel intermedio. Segundo, facilita la experimentación con modelos que manejan contextos cada vez más largos, esencial para aplicaciones en procesamiento de documentos extensos, análisis jurídico automatizado y síntesis de información. Tercero, la metodología propuesta por Nous Research establece un patrón replicable: optimizaciones específicas de fase de entrenamiento que no añaden latencia en producción.

El paper de Nous Research refuerza una tendencia creciente: la optimización de entrenamientos mediante técnicas selectivas y reversibles. A medida que los contextos se expanden (algunos modelos ya exploran millones de tokens), soluciones como Lighthouse Attention serán fundamentales para mantener la viabilidad económica del desarrollo de LLMs avanzados.

Este resumen es un análisis original. Para leer la noticia completa visita la fuente original: MarkTechPost →

Sigue leyendo en Inteligencia Artificial