Nous Research presenta Lighthouse Attention: aceleración de 1.4–1.7× en preentrenamiento
16 de mayo de 2026 · Fuente original: MarkTechPost
Nous Research introduce Lighthouse Attention, un mecanismo de atención jerárquica que optimiza el preentrenamiento de modelos de lenguaje en contextos largos. La técnica reduce la complejidad computacional y se aplica solo durante el entrenamiento, logrando aceleraciones significativas sin degradar
Contexto: El desafío de la atención en contextos largos
Durante el preentrenamiento de modelos de lenguaje de gran escala, el mecanismo de atención estándar (scaled dot-product attention) se convierte en un cuello de botella computacional cuando se trabaja con secuencias largas. La complejidad cuadrática de la atención tradicional (O(N²)) escala rápidamente, consumiendo memoria y tiempo de procesamiento de forma prohibitiva. Investigadores anteriores propusieron alternativas como NSA e HISA que optimizan claves y valores, pero Nous Research ha explorado una estrategia diferente.
Lighthouse Attention: un enfoque jerárquico selectivo
Lighthouse Attention es un mecanismo de selección jerárquica que actúa solo durante el preentrenamiento y se desactiva en inferencia. Su característica principal es procesar consultas (Q), claves (K) y valores (V) de manera simétrica a través de una pirámide multiescala, en lugar de optimizar solo K y V como en métodos precedentes. Esta arquitectura reduce la complejidad de O(N·S·d) a O(S²·d), donde S representa el tamaño de una subsecuencia densa sobre la que se ejecuta FlashAttention de forma estándar.
Resultados experimentales y rendimiento
Los experimentos se realizaron con un modelo estilo Llama-3 de 530 millones de parámetros operando a 98K tokens de contexto. Los resultados muestran aceleraciones de 1.40× a 1.69× en tiempo real de pared (wall-clock) comparado contra un baseline de SDPA con cuDNN. Crucialmente, estas ganancias de velocidad se logran manteniendo o incluso reduciendo la pérdida de entrenamiento final, lo que indica que la aproximación jerárquica no sacrifica la calidad del modelo preentrenado.
La elegancia del método radica en su naturaleza exclusiva de entrenamiento: una vez completado el preentrenamiento, Lighthouse se retira completamente, permitiendo que el modelo funcione con la arquitectura estándar sin sobrecarga adicional en inferencia. Esta característica contrasta con métodos que requieren mantener aproximaciones durante todo el ciclo de vida del modelo.
Implicaciones para investigadores y desarrolladores
Para equipos de IA en América Latina, esta innovación abre oportunidades concretas en tres frentes. Primero, reduce significativamente el costo computacional de preentrenamiento, factor crítico cuando se entrena con recursos limitados o hardware de nivel intermedio. Segundo, facilita la experimentación con modelos que manejan contextos cada vez más largos, esencial para aplicaciones en procesamiento de documentos extensos, análisis jurídico automatizado y síntesis de información. Tercero, la metodología propuesta por Nous Research establece un patrón replicable: optimizaciones específicas de fase de entrenamiento que no añaden latencia en producción.
El paper de Nous Research refuerza una tendencia creciente: la optimización de entrenamientos mediante técnicas selectivas y reversibles. A medida que los contextos se expanden (algunos modelos ya exploran millones de tokens), soluciones como Lighthouse Attention serán fundamentales para mantener la viabilidad económica del desarrollo de LLMs avanzados.
Este resumen es un análisis original. Para leer la noticia completa visita la fuente original: MarkTechPost →
Sigue leyendo en Inteligencia Artificial
Hospital pediátrico estadounidense aplica IA generativa para diagnósticos de enfermedades raras
Un hospital infantil de Boston implementó tecnología de IA generativa para mejorar la precisión diagnóstica en casos de enfermedades raras, logrando identificar más de 40 patologías que habían permanecido sin diagnosticar previamente.
Fuente: OpenAI Blog
Hexo Labs libera SIA: agente automejorable que optimiza código y pesos del modelo
Hexo Labs publica SIA, un bucle de auto-mejora de código abierto bajo licencia MIT. El sistema combina reescritura automática de código y ajuste de pesos LoRA en GPT-OSS-120B, demostrando mejor desempeño que métodos convencionales en tareas legales y científicas.
Fuente: MarkTechPost
Liquid AI lanza LFM2.5: modelo MoE eficiente para dispositivos locales
Liquid AI presenta un modelo de lenguaje optimizado con arquitectura Mixture of Experts que activa solo 1.5B de 8.3B parámetros totales, permitiendo ejecución en hardware de consumo con ventana de contexto de 128K tokens y capacidades de razonamiento.
Fuente: MarkTechPost