Ir al contenido principal

Recursos Académicos

Actualizado esta semana

Atoms colabora con las principales universidades y centros de investigación a nivel mundial para generar continuamente producción académica en áreas como marcos multi-agente, razonamiento con LLM (Modelos de Lenguaje Grande), aumento de contexto y flujos de trabajo automatizados. A continuación, se presentan algunos de los artículos más recientes, que abarcan conferencias internacionales de primer nivel como NeurIPS, ICLR, ACL y EMNLP.

Estos resultados de investigación no solo impulsan el desarrollo de teorías de vanguardia, sino que también proporcionan una base técnica sólida para las capacidades de los productos de Atoms (como la colaboración multi-agente, la interpretación de datos, el razonamiento mejorado por RAG, la optimización de Prompts, entre otros).

1. You Don’t Know Until You Click: Automated GUI Testing for Production-Ready Software Evaluation

Resumen Con el rápido desarrollo de los Grandes Modelos de Lenguaje (LLMs) y los agentes de código, su capacidad se ha expandido desde la generación de fragmentos de código aislados hasta la construcción de aplicaciones completas, incluyendo interfaces gráficas, lógica de interacción y comportamientos dinámicos. Sin embargo, los benchmarks de evaluación existentes dependen en gran medida de comprobaciones estáticas o scripts simples de "pasa/falla", incapaces de capturar la interacción real y la dinámica en tiempo de ejecución. Esto deja un vacío en la evaluación de usabilidad para aplicaciones de nivel de producción.

Para resolver este problema, el equipo de investigación propone RealDevWorld, un nuevo marco de evaluación de extremo a extremo (end-to-end) diseñado para probar automáticamente la capacidad de los LLM para generar bases de código de nivel de producción desde cero.

Contribuciones Principales

  • Se propone el primer marco de evaluación automatizada de GUI de extremo a extremo dedicado específicamente a aplicaciones de nivel de producción.

  • Se construye un conjunto de tareas masivo y abierto, RealDevBench, que cubre escenarios de aplicaciones multidominio y multimodales.

  • Se diseña un sistema de evaluación interactivo, AppEvalPilot, que proporciona retroalimentación de diagnóstico de grano fino.

  • Los experimentos demuestran que los resultados de la evaluación son altamente consistentes con la evaluación humana (precisión de 0.92, coeficiente de correlación de 0.85), reduciendo significativamente la dependencia de la intervención manual.

2. Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems

Resumen La aparición de los Grandes Modelos de Lenguaje (LLMs) ha impulsado una transformación importante en la inteligencia artificial, dando lugar a agentes capaces de realizar razonamientos complejos, percepción robusta y acciones en diversos dominios. Sin embargo, el diseño, la evaluación y la mejora continua de estos agentes enfrentan desafíos complejos y diversos.

Este estudio revisa sistemáticamente la trayectoria de desarrollo de los Agentes Fundacionales (Foundation Agents). Partiendo de una arquitectura modular inspirada en el cerebro y combinando perspectivas interdisciplinarias de la ciencia cognitiva, la neurociencia y la computación, se proponen direcciones clave para el desarrollo y la investigación futura. El artículo se divide en cuatro partes:

  1. Bases Modulares: Mapeo de módulos cognitivos, perceptivos y de acción a las funciones del cerebro humano, explorando elementos centrales como la memoria, el modelado del mundo, el procesamiento de recompensas, objetivos y emociones.

  2. Auto-mejora y Evolución: Estudio de cómo los agentes logran la auto-mejora a través de mecanismos de optimización automatizada, adaptándose a entornos dinámicos y manteniendo un aprendizaje continuo.

  3. Sistemas Multi-agente: Análisis de la interacción grupal, la cooperación y la inteligencia de enjambre que emerge de las estructuras sociales.

  4. Seguridad y Alineación: Énfasis en las amenazas de seguridad internas y externas, la alineación ética, la robustez y las contramedidas prácticas necesarias para una implementación confiable.

Contribuciones Principales

  • Proporciona una revisión exhaustiva del desarrollo de los Agentes Fundacionales.

  • Propone un marco de agente modular inspirado en el cerebro, integrando perspectivas de la ciencia cognitiva y la neurociencia.

  • Discute sistemáticamente cuestiones clave como la evolución adaptativa, la colaboración multi-agente y la seguridad de la IA.

  • Señala las oportunidades de investigación que brinda la fusión interdisciplinaria, abogando por un camino de innovación que coordine el progreso tecnológico con los valores sociales.

3. Atom of Thoughts for Markov LLM Test-Time Scaling

Resumen Los Grandes Modelos de Lenguaje (LLMs) han logrado mejoras significativas de rendimiento mediante el escalado durante el entrenamiento, mientras que el Test-Time Scaling (escalado en tiempo de inferencia) ha mejorado aún más su capacidad de razonamiento. No obstante, los métodos actuales a menudo sufren interferencias por la acumulación de información histórica al escalar el razonamiento, lo que no solo desperdicia potencia de cálculo, sino que también debilita el razonamiento efectivo.

Por ello, este artículo propone Atom of Thoughts (AoT). Su idea central es descomponer el razonamiento complejo en una serie de problemas atómicos (Atomic Questions) independientes y "sin memoria", similar a un proceso de Markov. El mecanismo de AoT incluye:

  1. Descomposición del problema: Dividir el problema actual en múltiples subproblemas dentro de un grafo de dependencia (DAG).

  2. Contracción del problema: Contraer los subproblemas para formar un problema simplificado que mantiene la equivalencia de la respuesta.

  3. Proceso iterativo: Construir un proceso de razonamiento de Markov natural a través de un ciclo de descomposición-contracción. Estos estados atómicos pueden integrarse perfectamente en los métodos existentes de Test-Time Scaling como módulos de mejora tipo "plug-in".

Contribuciones Principales

  • Propone el concepto de Razonamiento Atómico, permitiendo que problemas complejos se desglosen en procesos de razonamiento en cadena de Markov.

  • Alta compatibilidad: AoT se integra perfectamente en los métodos de extensión de inferencia existentes, mejorando los resultados.

  • Eficiencia: Reduce la acumulación de información histórica inválida, disminuyendo el desperdicio de cómputo.

  • Los resultados empíricos muestran mejoras significativas en múltiples tareas.

4. Self-Supervised Prompt Optimization (SPO)

Resumen En la aplicación de Grandes Modelos de Lenguaje (LLMs), un Prompt de alta calidad es clave para mejorar la capacidad de razonamiento y alinear el modelo con los requisitos de la tarea. Sin embargo, el diseño manual de Prompts suele requerir experiencia profesional y múltiples pruebas y errores; los métodos de optimización automatizada existentes también dependen de datos externos o etiquetado humano, lo que limita su uso en escenarios reales.

Para esto, el artículo propone Self-Supervised Prompt Optimization (SPO), un marco eficiente que no requiere referencias externas y es capaz de descubrir automáticamente Prompts de alta calidad para tareas cerradas y abiertas. Su mecanismo central es:

  1. Señal autosupervisada: Evalúa directamente la calidad del Prompt comparando las salidas del LLM.

  2. Autoevaluación del LLM: Utiliza el LLM como juez para comparar la calidad de los resultados.

  3. Optimizador LLM: Genera Prompts que se ajustan mejor a los requisitos de la tarea basándose en la evaluación.

Contribuciones Principales

  • Propone un marco de optimización de Prompts autosupervisado que no requiere datos externos.

  • Basa la evaluación y optimización de la calidad del Prompt completamente en la comparación de las propias salidas del LLM.

  • Reduce drásticamente los costos de cálculo y datos mientras garantiza un alto rendimiento.

5. Improving Context Fidelity via Native Retrieval-Augmented Reasoning (CARE)

Resumen En tareas de preguntas y respuestas y aquellas intensivas en conocimiento, los Grandes Modelos de Lenguaje (LLMs) a menudo presentan alucinaciones de contexto (context hallucination), es decir, respuestas inconsistentes o irrelevantes respecto a la información proporcionada. Esto conduce a una disminución de la confianza del usuario y de la utilidad del sistema.

Los métodos tradicionales tienen dos limitaciones:

  1. Ajuste Fino Supervisado (SFT) + RAG: Requiere datos etiquetados costosos (evidencia de verdad fundamental) y es difícil de escalar.

  2. Mecanismos de recuperación externa: Pueden acceder a conocimiento adicional, pero a menudo ignoran información clave ya presente en la entrada del usuario.

Por ello, se propone el marco CARE (Context-Aware Retrieval-Enhanced reasoning), un nuevo paradigma de Razonamiento Aumentado por Recuperación Nativa:

  • Identifica e integra evidencia del contexto de entrada directamente en la cadena de razonamiento, en lugar de separar "búsqueda" y "razonamiento".

  • Aprovecha plenamente la capacidad de comprensión del lenguaje del LLM para realizar una recuperación de contexto nativa, sin necesidad de índices o sistemas de embedding adicionales.

  • Mejora la precisión y confiabilidad del razonamiento mediante la integración explícita de evidencia.

Contribuciones Principales

  • Propone el Razonamiento Aumentado por Recuperación Nativa, integrando evidencia directamente en la cadena de razonamiento para mejorar la consistencia del contexto.

  • Construye y hace público un conjunto de datos de entrenamiento para el razonamiento con integración de evidencia.

  • Supera significativamente en múltiples benchmarks de QA reales y contrafácticos a:

    • SFT tradicional.

    • Métodos RAG estándar.

    • Modelos de control que carecen de mecanismos de recuperación de contexto.

6. FACT: Examining the Effectiveness of Iterative Context Rewriting for Multi-Fact Retrieval

Resumen Aunque los LLMs funcionan bien al recuperar un solo hecho en contextos largos, muestran deficiencias notables en tareas que requieren recuperar múltiples hechos simultáneamente. La investigación descubrió un nuevo fenómeno: "pérdida en el medio" (lost-in-the-middle), donde el modelo olvida gradualmente información clave durante el proceso de generación, resultando en búsquedas incompletas o inexactas.

Para abordar esto, los autores proponen FACT (Find All Crucial Texts), un método de reescritura iterativa del contexto. A través de múltiples rondas de reescritura, se optimiza gradualmente el contexto, permitiendo al modelo capturar y retener progresivamente múltiples piezas de información clave.

Contribuciones Principales

  • Revela sistemáticamente el fenómeno de "pérdida en el medio" en LLMs durante la recuperación de múltiples hechos.

  • Propone FACT: mejora la integridad y precisión de la recuperación de múltiples hechos mediante la reescritura iterativa del contexto.

  • Los experimentos demuestran que FACT mejora significativamente las tareas de recuperación de múltiples hechos, aunque la mejora en tareas de preguntas y respuestas generales es relativamente limitada.

  • Ofrece una nueva dirección para construir métodos de recuperación de contexto largo más robustos en el futuro.

7. SELA: Tree-Search Enhanced LLM Agents for Automated Machine Learning

Resumen Los métodos de Aprendizaje Automático Automatizado (AutoML) se dividen en dos categorías:

  1. Métodos tradicionales: Optimizan pipelines fijos (como selección de modelos y ensamblaje).

  2. Métodos impulsados por LLM: Utilizan modelos de lenguaje para generar y ajustar pipelines de forma autónoma.

Sin embargo, los agentes LLM en tareas de AutoML suelen presentar dos problemas:

  • Baja diversidad: Los patrones de código generados son monótonos.

  • Soluciones subóptimas: Incluso tras múltiples iteraciones, los resultados no son ideales.

Para resolver estos problemas, este artículo propone SELA (Tree-Search Enhanced LLM Agents), un nuevo sistema de agentes que combina la Búsqueda de Árbol Monte Carlo (MCTS) para optimizar el flujo de AutoML.

Contribuciones Principales

  • Introduce la Búsqueda de Árbol (MCTS) en agentes de AutoML impulsados por LLM, mejorando la eficiencia de exploración.

  • Implementa una mejora iterativa de políticas a través de retroalimentación experimental, superando los problemas de baja diversidad y soluciones subóptimas.

  • Proporciona un marco general extensible a una gama más amplia de tareas de aprendizaje automático.

8. AFlow: Automating Agentic Workflow Generation

Resumen Los Grandes Modelos de Lenguaje (LLMs) muestran un gran potencial para resolver tareas complejas, a menudo ejecutando flujos de trabajo agénticos (agentic workflows) con instrucciones y pasos detallados.

Sin embargo:

  • La construcción de estos flujos de trabajo requiere mucho esfuerzo humano y es difícil de escalar.

  • Los métodos existentes logran cierta automatización, pero aún dependen de una configuración manual inicial, dificultando la optimización eficiente y totalmente automatizada.

Para solucionar esto, se propone AFlow, un marco automatizado que reformula la optimización del flujo de trabajo como un problema de búsqueda:

  1. Modela el flujo de trabajo como un grafo de código, donde los nodos son operaciones que llaman al LLM y los bordes son conexiones lógicas.

  2. Utiliza Búsqueda de Árbol Monte Carlo (MCTS) para explorar y optimizar automáticamente.

  3. Mejora iterativamente el flujo de trabajo mediante modificación de código + almacenamiento de experiencia en árbol + retroalimentación de ejecución.

Contribuciones Principales

  • Transforma la optimización del flujo de trabajo en un problema de búsqueda en grafo de código.

  • Propone el marco AFlow, logrando la generación y optimización de flujos de trabajo completamente automatizada.

  • Demuestra que la combinación de modelos de bajo costo + flujos de trabajo eficientes puede superar el rendimiento de modelos más grandes.

9. Data Interpreter: An LLM Agent For Data Science

Resumen: Los agentes basados en LLM han demostrado capacidades poderosas en múltiples escenarios, pero aún enfrentan desafíos únicos en el campo de la Ciencia de Datos:

  • Enlaces de tareas largos y complejos: Alta dependencia entre tareas.

  • Ajuste dinámico de datos: Los resultados intermedios pueden cambiar en cualquier momento.

  • Necesidad de conocimiento de dominio: Los métodos tradicionales difícilmente cubren necesidades especializadas.

Los métodos existentes se centran mayormente en tareas individuales, careciendo de adaptación a procesos de extremo a extremo y dificultando el manejo de cambios dinámicos en los datos. Por ello, el artículo presenta Data Interpreter, un agente LLM capaz de resolver automáticamente tareas de todo el proceso de ciencia de datos.

Contribuciones Principales

  • Primer agente LLM orientado a procesos de ciencia de datos de extremo a extremo.

  • Propone un método de descomposición de tareas basado en grafos, soportando la gestión dinámica de tareas.

  • Mejora la calidad de generación de código mediante la optimización iterativa de nodos.

  • Supera ampliamente a los métodos existentes en múltiples benchmarks.

10. MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework

Descripción General Con el rápido desarrollo de sistemas multi-agente impulsados por Grandes Modelos de Lenguaje (LLMs), la resolución automatizada de problemas ha logrado avances significativos. Los sistemas multi-agente LLM actuales pueden resolver tareas de diálogo simples, pero al tratar con tareas complejas, tienden a sufrir inconsistencias lógicas debido a alucinaciones en cascada (cascading hallucinations).

Por ello, el equipo de investigación propuso MetaGPT, un marco innovador de Meta-programación que, al introducir métodos estandarizados de flujos de trabajo humanos, hace que la colaboración multi-agente sea más confiable y eficiente.

Contribuciones Principales

  • Introduce el concepto de Meta-programación en la colaboración multi-agente.

  • Incorpora los Procedimientos Operativos Estándar (SOPs) de equipos humanos en el flujo de trabajo de los agentes.

  • Logra una descomposición eficiente y colaboración de roles para tareas complejas.

  • Demuestra una mayor estabilidad y precisión en tareas de benchmark reales.

¿Ha quedado contestada tu pregunta?