NVIDIA presenta Gated DeltaNet-2: atención lineal con control desacoplado de memoria
24 de mayo de 2026 · Fuente original: MarkTechPost
NVIDIA lanzó Gated DeltaNet-2, una arquitectura de atención lineal que mejora la gestión de memoria en modelos de lenguaje al separar el control de borrado y escritura de datos. Con 1.3B parámetros, supera a Mamba-2 y Mamba-3 en tareas de razonamiento y recuperación de contexto extendido.
Problema de la atención lineal tradicional
Los modelos de lenguaje basados en transformadores enfrentan un cuello de botella fundamental: el cache de pares clave-valor (KV) crece sin límite con la longitud de la secuencia, consumiendo memoria exponencialmente. La atención lineal intenta resolver esto comprimiendo ese cache en un estado recurrente de tamaño fijo. Sin embargo, actualizar esta memoria sin destruir las asociaciones ya aprendidas ha sido históricamente difícil de lograr de forma efectiva.
La innovación de Gated DeltaNet-2
ENVIDIA presentó Gated DeltaNet-2, que introduce una mejora conceptual crucial sobre generaciones anteriores. Mientras que modelos previos como Gated DeltaNet y KDA utilizaban un único gate escalar para controlar tanto el borrado de contenido antiguo como la escritura de información nueva, la nueva arquitectura desacopla ambas operaciones: implementa una puerta de borrado sensible a canal (b_t) en el eje de las claves y una puerta de escritura sensible a canal (w_t) en el eje de los valores. Este cambio aparentemente sutil tiene implicaciones profundas para la calidad del modelo.
Resultados experimentales
En pruebas de validación, Gated DeltaNet-2 con 1.3 mil millones de parámetros entrenado en 100 mil millones de tokens de FineWeb-Edu demostró ventajas consistentes sobre competidores establecidos: superó a Mamba-2, Mamba-3 y modelos anteriores de la familia DeltaNet en tareas de modelado de lenguaje, razonamiento de sentido común y recuperación de contexto extendido. Las ganancias más notables aparecieron en pruebas especializadas como RULER S-NIAH (evaluación de aguja en pajar) y recuperación multi-clave de aguja en pajar, dominios donde la retención precisa de información contextual es crítica.
Implicaciones técnicas y prácticas
La arquitectura de atención lineal es particularmente valiosa para escenarios donde el contexto es muy extenso: procesamiento de documentos largos, análisis de conversaciones históricas complejas o inferencia en dispositivos con restricciones de memoria. El desacoplamiento de operaciones de memoria permite que cada eje se especialize: las claves manejan qué información se olvida, mientras que los valores controlan qué se retiene activamente. Esto refleja una comprensión más sofisticada de cómo los modelos deberían gestionar la información a lo largo del tiempo.
Relevancia para la región
En contextos de América Latina donde la infraestructura computacional es frecuentemente limitada, la eficiencia de memoria es un factor crítico de adopción. Modelos de atención lineal como DeltaNet-2 permiten ejecutar sistemas de IA avanzados en servidores menos poderosos o incluso en edge devices, reduciendo dependencia de llamadas a APIs en nube y mejorando latencia en aplicaciones críticas.
Este resumen es un análisis original. Para leer la noticia completa visita la fuente original: MarkTechPost →
Sigue leyendo en Inteligencia Artificial
Nemotron-Labs: Generación de texto a velocidad de luz con modelos de difusión
NVIDIA presenta Nemotron-Labs Diffusion, una arquitectura innovadora que acelera significativamente la generación de texto mediante modelos de difusión. La tecnología promete reducir latencias en aplicaciones de IA generativa para infraestructuras industriales y empresariales.
Fuente: Hugging Face Blog
Sesame lanza app iOS con agentes de IA conversacional más naturales
La plataforma de IA conversacional fundada por los creadores de Oculus desembarca en iOS con agentes diseñados para dialogar de forma más natural y menos mecanicista que los chatbots tradicionales.
Fuente: TechCrunch AI
Gemini de Google falla en tareas básicas de ortografía
Un modelo de IA de Google muestra dificultades para deletrear palabras simples, incluyendo su propio nombre. El incidente pone de relieve limitaciones persistentes en capacidades fundamentales de procesamiento de texto.
Fuente: TechCrunch AI