Atoms는 전 세계 유수 대학 및 연구 기관과 협력하여 멀티 에이전트 프레임워크, LLM(대규모 언어 모델) 추론, 컨텍스트 증강, 자동화 워크플로우 등의 분야에서 지속적으로 학술적 성과를 발표하고 있습니다. 다음은 NeurIPS, ICLR, ACL, EMNLP 등 국제 최상위 학회에서 발표된 최신 논문 중 일부입니다.
이러한 연구 성과는 최첨단 이론의 발전을 이끌 뿐만 아니라, Atoms의 제품 역량(멀티 에이전트 협업, 데이터 해석, RAG 증강 추론, 프롬프트 최적화 등)을 뒷받침하는 견고한 기술적 토대가 되고 있습니다.
1. You Don’t Know Until You Click: Automated GUI Testing for Production-Ready Software Evaluation
초록 대규모 언어 모델(LLM)과 코드 에이전트의 급속한 발전에 따라, 이들의 능력은 단순한 코드 조각 생성을 넘어 그래픽 인터페이스(GUI), 상호 작용 로직, 동적 동작을 포함한 완전한 애플리케이션 구축으로 확장되었습니다. 그러나 기존의 평가 벤치마크는 대부분 정적 검사나 단순한 성공/실패 스크립트에 의존하고 있어, 실제 상호 작용이나 런타임 동적 동작을 포착하지 못하며, 이로 인해 프로덕션급 애플리케이션의 사용성 평가에 공백이 발생하고 있습니다.
이 문제를 해결하기 위해 연구팀은 LLM이 처음부터 생성한 프로덕션급 코드베이스의 능력을 자동으로 테스트하기 위한 새로운 엔드투엔드 평가 프레임워크인 RealDevWorld를 제안합니다.
주요 기여
프로덕션급 애플리케이션을 전문으로 하는 최초의 엔드투엔드 GUI 자동화 평가 프레임워크를 제안했습니다.
다중 도메인 및 멀티모달 애플리케이션 시나리오를 포괄하는 대규모 오픈 태스크 세트인 RealDevBench를 구축했습니다.
세밀한 진단 피드백을 제공하는 대화형 평가 시스템 AppEvalPilot을 설계했습니다.
실험 결과, 평가 결과가 인간의 평가와 높은 일치율(정확도 0.92, 상관계수 0.85)을 보여 수작업 의존도를 크게 낮출 수 있음을 입증했습니다.
2. Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems
초록 대규모 언어 모델(LLM)의 출현은 인공지능의 중대한 전환을 이끌었으며, 복잡한 추론, 견고한 인식, 다양한 도메인 간의 행동이 가능한 에이전트를 탄생시켰습니다. 그러나 이러한 에이전트의 설계, 평가 및 지속적인 개선은 복잡하고 다양한 과제에 직면해 있습니다.
본 연구는 **파운데이션 에이전트(Foundation Agents)**의 발전 경로를 체계적으로 회고하며, 뇌 과학적 영감을 받은 모듈형 아키텍처에서 출발하여 인지 과학, 신경 과학, 계산 연구의 학제간 관점을 결합해 미래 발전과 연구의 핵심 방향을 제시합니다. 논문은 다음 네 부분으로 구성됩니다.
모듈형 기초: 인지, 지각, 조작 모듈을 인간 뇌 기능에 매핑하여 기억, 세계 모델링, 보상 처리, 목표 및 감정 등 핵심 요소를 탐구합니다.
자기 강화 및 진화: 에이전트가 자동화된 최적화 메커니즘을 통해 어떻게 자기 개선을 이루고 동적 환경에 적응하며 지속적인 학습을 유지하는지 연구합니다.
멀티 에이전트 시스템: 집단 상호 작용, 협력 및 사회 구조 속에서 창발하는 집단 지성을 분석합니다.
안전 및 정렬(Alignment): 내·외부적 보안 위협, 윤리적 정렬, 견고성, 그리고 신뢰할 수 있는 적용을 위해 필요한 실질적인 대책을 강조합니다.
주요 기여
파운데이션 에이전트의 발전에 대한 포괄적인 리뷰를 제공했습니다.
인지 과학 및 신경 과학적 관점을 결합한 뇌 기반 모듈형 에이전트 프레임워크를 제안했습니다.
적응형 진화, 멀티 에이전트 협업, AI 안전성 등 핵심 문제를 체계적으로 논의했습니다.
학제간 융합이 가져올 연구 기회를 제시하며, 기술 진보와 사회적 가치가 조화롭게 발전하는 혁신 경로의 구축을 촉구했습니다.
3. Atom of Thoughts for Markov LLM Test-Time Scaling
초록 대규모 언어 모델(LLM)은 훈련 단계에서의 규모 확장을 통해 획기적인 성능 향상을 이루었으며, 추론 단계의 **테스트 타임 스케일링(Test-Time Scaling)**은 추론 능력을 더욱 강화했습니다. 그러나 기존 방식은 추론 규모를 확장할 때 과거 정보의 축적으로 인한 간섭을 겪는 경우가 많아, 연산 자원을 낭비할 뿐만 아니라 유효한 추론 능력을 약화시키기도 합니다.
이에 본 논문은 **사고의 원자(Atom of Thoughts, AoT)**를 제안합니다. 핵심 아이디어는 복잡한 추론을 마르코프 프로세스(Markov Process)와 유사하게 독립적이고 '기억이 없는(Memoryless)' 일련의 **원자적 문제(Atomic Questions)**로 분해하는 것입니다. AoT의 작동 메커니즘은 다음과 같습니다.
문제 분해: 현재 문제를 의존성 그래프(DAG) 내의 여러 하위 문제로 분해합니다.
문제 수축: 하위 문제를 수축시켜 정답의 등가성을 유지하는 단순화된 문제를 형성합니다.
반복 프로세스: 분해-수축 순환을 통해 자연스러운 마르코프 추론 과정을 구축합니다. 이러한 원자 상태는 기존의 테스트 타임 스케일링 방법에 플러그인 방식의 확장 모듈로 원활하게 통합되어 추론 능력을 향상시킬 수 있습니다.
주요 기여
원자적 추론(Atomic Reasoning) 개념을 제안하여 복잡한 문제를 마르코프 체인 방식의 추론 과정으로 분해할 수 있게 했습니다.
높은 호환성: AoT는 기존 추론 확장 방법에 매끄럽게 통합되어 추론 효과를 높입니다.
고효율: 무효한 과거 정보의 축적을 줄여 연산 자원 낭비를 감소시킵니다.
실증 결과, 여러 태스크에서 유의미한 성능 향상을 보였습니다.
4. Self-Supervised Prompt Optimization (SPO)
초록 대규모 언어 모델(LLM) 애플리케이션에서 고품질의 **프롬프트(Prompt)**는 추론 능력을 높이고 태스크 요구사항을 정렬(Alignment)하는 데 핵심적입니다. 그러나 수동으로 프롬프트를 설계하는 것은 전문적인 경험과 수많은 시행착오를 필요로 하며, 기존의 자동 최적화 방법 또한 외부 데이터나 수동 라벨링에 의존하여 실제 환경에서의 활용에 제약이 큽니다.
이를 위해 본 논문은 외부 참조 없이도 폐쇄형 및 개방형 태스크에 적합한 고품질 프롬프트를 자동으로 찾아내는 효율적인 프레임워크인 **SPO(Self-Supervised Prompt Optimization)**를 제안합니다. 핵심 메커니즘은 다음과 같습니다.
자기 지도 신호: LLM의 출력을 비교하여 프롬프트 품질을 직접 평가합니다.
LLM 자기 평가: LLM을 심사위원으로 활용하여 출력 결과의 우열을 비교합니다.
LLM 최적화기: 평가를 바탕으로 태스크 요구사항에 더 부합하는 프롬프트를 생성합니다.
주요 기여
외부 데이터가 필요 없는 자기 지도 프롬프트 최적화 프레임워크를 제안했습니다.
프롬프트 품질의 평가와 최적화를 온전히 LLM 자체 출력의 비교에 기반하여 수행합니다.
높은 성능을 유지하면서 계산 및 데이터 비용을 대폭 절감했습니다.
5. Improving Context Fidelity via Native Retrieval-Augmented Reasoning (CARE)
초록 대규모 언어 모델(LLM)은 질의응답 및 지식 집약적 태스크에서 종종 컨텍스트 환각(Context Hallucination), 즉 제공된 정보와 일치하지 않거나 무관한 답변을 내놓는 현상을 보입니다. 이는 사용자 신뢰 하락과 시스템 실용성 저하로 이어집니다.
기존 방법에는 두 가지 한계가 있습니다.
지도 미세 조정(SFT) + RAG: 비용이 많이 드는 라벨링 데이터(Ground Truth Evidence)가 필요하며 확장이 어렵습니다.
외부 검색 메커니즘: 추가 지식에 접근할 수 있지만, 사용자 입력에 이미 포함된 핵심 정보를 간과하는 경우가 많습니다.
이에 본 논문은 **CARE 프레임워크(Context-Aware Retrieval-Enhanced reasoning)**를 제안합니다. 이는 네이티브 검색 증강 추론이라는 새로운 패러다임입니다.
'검색'과 '추론'을 분리하지 않고, 추론 체인 내에서 입력 컨텍스트의 증거를 직접 식별하고 통합합니다.
LLM의 언어 이해 능력을 십분 활용하여 네이티브 컨텍스트 검색을 수행하므로 별도의 인덱싱이나 임베딩 시스템이 필요 없습니다.
명시적인 증거 통합을 통해 추론의 정확성과 신뢰성을 높입니다.
주요 기여
네이티브 검색 증강 추론을 제안하여 추론 체인 내에 증거를 직접 통합함으로써 컨텍스트 일관성을 향상시켰습니다.
증거 통합 추론을 위한 훈련 데이터셋을 구축하고 공개했습니다.
여러 실제 및 반사실적(Counterfactual) QA 벤치마크에서 다음 방법들을 크게 상회하는 성과를 보였습니다.
전통적인 SFT
표준 RAG 방법
컨텍스트 검색 메커니즘이 없는 대조 모델
6. FACT: Examining the Effectiveness of Iterative Context Rewriting for Multi-Fact Retrieval
초록 대규모 언어 모델(LLM)은 긴 컨텍스트에서 단일 사실을 검색할 때는 우수한 성능을 보이지만, 여러 사실을 동시에 검색해야 하는 태스크에서는 뚜렷한 부족함을 보입니다. 연구진은 **'중간 소실(Lost-in-the-middle)'**이라는 새로운 현상을 발견했습니다. 이는 모델이 생성 과정에서 핵심 정보를 점차 망각하여 검색 결과가 불완전하거나 부정확해지는 현상입니다.
이 문제를 해결하기 위해 저자들은 반복적 컨텍스트 재작성 방법인 **FACT(Find All Crucial Texts)**를 제안했습니다. 이는 여러 차례의 재작성을 통해 컨텍스트를 단계적으로 최적화하여 모델이 여러 핵심 정보를 점진적으로 포착하고 유지할 수 있게 합니다.
주요 기여
다중 사실 검색에서 발생하는 LLM의 '중간 소실' 현상을 체계적으로 규명했습니다.
반복적 컨텍스트 재작성을 통해 다중 사실 검색의 완전성과 정확성을 높이는 FACT를 제안했습니다.
실험을 통해 FACT가 다중 사실 검색 태스크에서 뚜렷한 성능 향상을 보임을 입증했습니다(일반 QA 태스크에서의 향상은 상대적으로 제한적임).
향후 더 견고한 장문 컨텍스트 검색 방법을 구축하기 위한 새로운 방향을 제시했습니다.
7. SELA: Tree-Search Enhanced LLM Agents for Automated Machine Learning
초록 자동화된 머신러닝(AutoML) 방법은 크게 두 가지로 나뉩니다.
전통적 방법: 고정된 파이프라인(모델 선택 및 앙상블 등)을 최적화합니다.
LLM 기반 방법: 언어 모델을 활용하여 파이프라인을 자율적으로 생성하고 조정합니다.
그러나 AutoML 태스크에서 LLM 에이전트는 종종 두 가지 문제에 직면합니다.
낮은 다양성: 생성된 코드 패턴이 단조롭습니다.
차선책(Suboptimal): 여러 번 반복해도 결과가 여전히 이상적이지 않습니다.
이러한 문제를 해결하기 위해 본 논문은 **몬테카를로 트리 탐색(MCTS)**을 결합하여 AutoML 프로세스를 최적화하는 새로운 에이전트 시스템 **SELA(Tree-Search Enhanced LLM Agents)**를 제안합니다.
주요 기여
**트리 탐색(MCTS)**을 LLM 기반 AutoML 에이전트에 도입하여 탐색 효율성을 높였습니다.
실험 피드백을 통한 정책 반복(Policy Iteration) 개선을 구현하여 낮은 다양성과 차선책 문제를 극복했습니다.
더 광범위한 머신러닝 태스크로 확장 가능한 범용 프레임워크를 제공했습니다.
8. AFlow: Automating Agentic Workflow Generation
초록 대규모 언어 모델(LLM)은 복잡한 태스크 해결에 있어 큰 잠재력을 보여주며, 상세한 지침과 단계가 포함된 **에이전트 워크플로우(Agentic Workflows)**를 실행하여 태스크를 완수하는 경우가 많습니다.
그러나:
이러한 워크플로우를 구축하는 데는 많은 인력이 필요하며 확장이 어렵습니다.
기존 방법은 어느 정도 자동화를 달성했으나 여전히 초기 수동 설정에 의존하여 완전한 자동화와 효율적인 최적화를 달성하기 어렵습니다.
이 문제를 해결하기 위해 본 논문은 워크플로우 최적화를 탐색 문제로 재구성한 자동화 프레임워크 AFlow를 제안합니다.
워크플로우를 코드 그래프로 모델링합니다(노드는 LLM 호출 작업, 엣지는 논리적 연결).
**몬테카를로 트리 탐색(MCTS)**을 사용하여 자동으로 탐색 및 최적화를 수행합니다.
코드 수정 + 트리 구조의 경험 저장 + 실행 피드백을 통해 워크플로우를 지속적으로 반복 개선합니다.
주요 기여
워크플로우 최적화를 코드-그래프 탐색 문제로 변환했습니다.
AFlow 프레임워크를 제안하여 워크플로우 생성 및 최적화의 완전 자동화를 실현했습니다.
저비용 모델 + 고효율 워크플로우의 조합이 대규모 모델의 성능을 능가할 수 있음을 입증했습니다.
9. Data Interpreter: An LLM Agent For Data Science
초록: LLM 기반 에이전트는 여러 응용 시나리오에서 강력한 능력을 보여주었지만, 데이터 과학 분야에서는 여전히 독특한 도전에 직면해 있습니다.
장기적이고 복잡한 태스크 연결: 태스크 간의 의존도가 높습니다.
동적 데이터 조정: 중간 결과가 언제든지 변경될 수 있습니다.
도메인 지식의 필요성: 전통적인 방법으로는 전문적인 요구사항을 충족하기 어렵습니다.
기존 방법은 대부분 단일 태스크에 집중되어 있어 엔드투엔드 프로세스에 적응하지 못하고 동적인 데이터 변화를 처리하기 어려웠습니다. 이에 논문은 데이터 과학의 전 과정 태스크를 자동으로 해결할 수 있는 LLM 에이전트인 Data Interpreter를 제안했습니다.
주요 기여
엔드투엔드 데이터 과학 프로세스를 위한 최초의 LLM 에이전트입니다.
동적 태스크 관리를 지원하는 그래프 기반 태스크 분해 방법을 제안했습니다.
반복적인 노드 최적화를 통해 코드 생성 품질을 향상시켰습니다.
여러 벤치마크에서 기존 방법을 크게 앞서는 성능을 보였습니다.
10. MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework
개요 대규모 언어 모델(LLM) 기반 멀티 에이전트 시스템의 급속한 발전에 따라 자동화된 문제 해결은 괄목할 만한 진전을 이루었습니다. 현재의 LLM 멀티 에이전트 시스템은 단순 대화 태스크는 해결할 수 있지만, 복잡한 태스크를 처리할 때는 연쇄적인 환각(Cascading Hallucinations)으로 인해 논리적 불일치가 발생하기 쉽습니다.
이를 위해 연구팀은 혁신적인 메타 프로그래밍 프레임워크인 MetaGPT를 제안했습니다. 이는 인간의 표준 작업 절차(SOP)를 도입하여 멀티 에이전트 협업을 더욱 신뢰할 수 있고 효율적으로 만듭니다.
주요 기여
멀티 에이전트 협업에 메타 프로그래밍 개념을 도입했습니다.
인간 팀의 표준 운영 절차(SOP)를 에이전트 워크플로우에 통합했습니다.
복잡한 태스크의 효율적인 분해와 역할 협업을 실현했습니다.
실제 벤치마크 태스크에서 더 높은 안정성과 정확성을 입증했습니다.
