学術リソース | MGX Help Center

Atomsは、世界トップクラスの大学や研究機関と協力し、マルチエージェントフレームワーク、LLM（大規模言語モデル）推論、コンテキスト拡張、自動化ワークフローなどの分野で学術的成果を持続的に発信しています。以下は、NeurIPS、ICLR、ACL、EMNLPなどの国際トップ会議で発表された最新論文の一部です。

これらの研究成果は、最先端理論の発展を推進するだけでなく、Atomsの製品能力（マルチエージェント協調、データ解釈、RAG拡張推論、プロンプト最適化など）に強固な技術的基盤を提供しています。

1. You Don’t Know Until You Click: Automated GUI Testing for Production-Ready Software Evaluation

要約大規模言語モデル（LLM）とコードエージェントの急速な発展に伴い、その能力は単一のコードスニペット生成から、グラフィカルインターフェース（GUI）、対話ロジック、動的な振る舞いを含む完全なアプリケーション構築へと拡大しています。しかし、既存の評価ベンチマークの多くは静的チェックや単純な成功/失敗スクリプトに依存しており、実際の対話や実行時の動的挙動を捉えきれず、本番レベルのアプリケーションのユーザビリティ評価に空白が生じていました。

この問題を解決するため、研究チームは RealDevWorld を提案しました。これは、LLMがゼロから生成した本番レベルのコードベースの能力を自動テストするための、全く新しいエンドツーエンド評価フレームワークです。

主な貢献

本番レベルのアプリケーションに特化した初のエンドツーエンドGUI自動評価フレームワークを提案。
多領域・マルチモーダルなアプリケーションシナリオを網羅した大規模なオープタスクセット「RealDevBench」を構築。
粒度の細かい診断フィードバックを提供するインタラクティブな評価システム「AppEvalPilot」を設計。
実験により、評価結果が人間による評価と高度に一致（正解率 0.92、相関係数 0.85）し、人手への依存を大幅に低減することを示した。

詳細はこちら：https://arxiv.org/abs/2508.14104

2. Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems

要約大規模言語モデル（LLM）の出現は人工知能の大きな変革を促し、複雑な推論、堅牢な認識、および領域横断的な行動が可能なエージェントを生み出しました。しかし、これらのエージェントの設計、評価、および継続的な改善は、複雑かつ多様な課題に直面しています。

本研究は、「基盤エージェント（Foundation Agents）」 の発展経路を体系的に回顧し、脳に着想を得たモジュール式アーキテクチャを出発点として、認知科学、神経科学、計算研究の学際的な視点を組み合わせ、将来の発展と研究の重要な方向性を提示しています。論文は以下の4つのパートで構成されています：

モジュール式の基礎： 認知、知覚、操作モジュールを人間の脳機能にマッピングし、記憶、世界モデリング、報酬処理、目標、感情などの核心的要素を探求。
自己強化と進化： エージェントが自動最適化メカニズムを通じて、いかに自己改善し、動的環境に適応し、継続的な学習を維持するかを研究。
マルチエージェントシステム： 集団的相互作用、協力、社会構造の中で創発する群知能を分析。
安全性とアライメント： 内的・外的なセキュリティ脅威、倫理的アライメント、堅牢性、および信頼できる社会実装に必要な実践的対策を強調。

主な貢献

基盤エージェント（Foundation Agents）の発展に関する包括的なレビューを提供。
認知科学と神経科学の視点を結合した、脳に着想を得たモジュール式エージェントフレームワークを提案。
適応的進化、マルチエージェント協調、AIの安全性といった重要な問題を体系的に検討。
学際的な融合がもたらす研究機会を指摘し、技術の進歩と社会的価値が調和して発展するイノベーションパスの構築を呼びかけた。

詳細はこちら：https://arxiv.org/abs/2504.01990

3. Atom of Thoughts for Markov LLM Test-Time Scaling

要約大規模言語モデル（LLM）は、訓練段階での規模拡大により著しい性能向上を達成しましたが、推論段階における Test-Time Scaling（推論時の計算量拡大） は、その推論能力をさらに強化します。しかし、既存の手法で推論規模を拡大すると、過去の情報の蓄積による干渉を受けやすく、計算リソースを浪費するだけでなく、有効な推論能力を弱める傾向がありました。

そこで本論文では、Atom of Thoughts (AoT) を提案します。その核心的なアイデアは、複雑な推論を、独立した「記憶を持たない（メモリレス）」一連の 原子化された問題（Atomic Questions） に分解することであり、これはマルコフ過程（Markov Process）に類似しています。AoTのメカニズムは以下の通りです：

問題分解： 現在の問題を依存グラフ（DAG）内の複数のサブ問題に分解する。
問題収縮： サブ問題を収縮させ、回答の等価性を保った単純化された問題を形成する。
反復プロセス： 分解-収縮のサイクルを通じて、自然なマルコフ推論プロセスを構築する。これらの原子状態は、既存のTest-Time Scaling手法にシームレスに組み込むことができ、推論能力を向上させる プラグイン式拡張モジュール として機能します。

主な貢献

原子化推論（Atomic Reasoning） の概念を提案し、複雑な問題をマルコフ連鎖的な推論プロセスへと分解可能にした。
高い互換性：AoTは既存の推論拡張手法にシームレスに統合でき、推論効果を向上させる。
高効率：無効な履歴情報の蓄積を減らし、計算リソースの浪費を低減。
実証結果において、複数のタスクで顕著な性能向上が確認された。

詳細はこちら：https://arxiv.org/abs/2502.12018

4. Self-Supervised Prompt Optimization (SPO)

要約大規模言語モデル（LLM）の応用において、高品質なプロンプトは推論能力の向上やタスク要件への適合（アライメント）における鍵となります。しかし、手動でのプロンプト設計は専門的な経験と多数の試行錯誤を必要とします。また、既存の自動最適化手法も外部データや人手によるアノテーションに依存しており、実際のシナリオでは制限が顕著です。

そこで本論文では、Self-Supervised Prompt Optimization (SPO) を提案します。これは、外部参照を必要としない高効率なフレームワークであり、クローズドタスクとオープンタスク の両方に適した高品質なプロンプトを自動的に発見できます。その核心メカニズムは以下の通りです：

自己教師ありシグナル： LLMの出力を比較することで、プロンプトの質を直接評価する。
LLM自己評価： LLM自体を審査員として利用し、出力結果の優劣を比較する。
LLMオプティマイザ： 評価に基づき、よりタスク要件に合致したプロンプトを生成する。

主な貢献

外部データを必要としない 自己教師ありプロンプト最適化フレームワークを提案。
プロンプト品質の評価と最適化を、完全にLLM自身の出力比較に基づいて行う。
高性能を維持しつつ、計算コストとデータコストを大幅に削減。

詳細はこちら：https://arxiv.org/abs/2502.06855

5. Improving Context Fidelity via Native Retrieval-Augmented Reasoning (CARE)

要約大規模言語モデル（LLM）は、質問応答や知識集約型タスクにおいて、しばしば コンテキストの幻覚（Context Hallucination）、つまり提供された情報と矛盾したり無関係な回答をする現象が発生します。これは、ユーザーの信頼低下 や システムの実用性低下 を招きます。

従来の手法には2つの限界がありました：

教師あり微調整 (SFT) + RAG： 高コストなアノテーションデータ（根拠となる正解データ）を必要とし、拡張が困難。
外部検索メカニズム： 追加知識へのアクセスは可能だが、ユーザー入力に含まれる既存の重要な情報を見落とすことが多い。

そこで本論文では、CAREフレームワーク (Context-Aware Retrieval-Enhanced reasoning) を提案します。これは、ネイティブ検索拡張推論 という新しいパラダイムです：

推論チェーンの中で直接入力コンテキストからの証拠を特定・統合し、「検索」と「推論」を分離しない。
LLMの言語理解能力を最大限に活用して ネイティブなコンテキスト検索 を行い、追加のインデックスや埋め込みシステムを不要とする。
明示的な証拠の統合を通じて、推論の正確性と信頼性を向上させる。

主な貢献

ネイティブ検索拡張推論 を提案し、推論チェーン内で直接証拠を統合することでコンテキストの一貫性を向上。
証拠統合推論のためのトレーニングデータセットを構築・公開。
複数の実データおよび反事実的なQAベンチマークにおいて、以下を顕著に上回る成果を達成：
- 従来のSFT
- 標準的なRAG手法
- コンテキスト検索メカニズムを持たない対照モデル

詳細はこちら：https://openreview.net/forum?id=qTsU1QLOph

6. FACT: Examining the Effectiveness of Iterative Context Rewriting for Multi-Fact Retrieval

要約大規模言語モデル（LLM）は、長いコンテキストから単一の事実を検索する場合には良好なパフォーマンスを示しますが、複数の事実を同時に検索する必要があるタスクでは明らかな不足が見られます。研究により、「ロスト・イン・ザ・ミドル（Lost-in-the-Middle：途中での消失）」 という新たな現象が発見されました。これは、モデルが生成プロセスにおいて徐々に重要な情報を忘れ、検索結果が不完全または不正確になる現象です。

この問題を解決するため、著者らは FACT (Find All Crucial Texts) を提案しました。これは 反復的コンテキスト書き換え手法 であり、複数回の書き換えを通じてコンテキストを段階的に最適化し、モデルが複数の重要情報を順次捉えて保持できるようにします。

主な貢献

LLMが多重事実検索において示す 「ロスト・イン・ザ・ミドル」 現象を体系的に明らかにした。
FACT を提案：反復的なコンテキスト書き換えにより、多重事実検索の完全性と正確性を向上。
実験により、FACTは多重事実検索タスクにおいて顕著な向上を示す一方、一般的なQAタスクでの向上は比較的限定的であることを証明した。
より堅牢な長文コンテキスト検索手法を構築するための新たな方向性を提供した。

詳細はこちら：https://arxiv.org/abs/2410.21012

7. SELA: Tree-Search Enhanced LLM Agents for Automated Machine Learning

要約自動化機械学習（AutoML）の手法は大きく2つに分類されます：

従来の手法： 固定されたパイプライン（モデル選択やアンサンブルなど）を最適化する。
LLM駆動型手法： 言語モデルを利用して自律的にパイプラインを生成・調整する。

しかし、AutoMLタスクにおけるLLMエージェントには、しばしば2つの問題が発生します：

低い多様性： 生成されるコードのパターンが単一的である。
次善解（Suboptimal）： 何度反復しても、結果が依然として理想的ではない。

これらの問題を解決するため、本論文では SELA (Tree-Search Enhanced LLM Agents) を提案します。これは、AutoMLプロセスを最適化するために、モンテカルロ木探索 (MCTS) を組み合わせた新しいエージェントシステムです。

主な貢献

木探索 (MCTS) をLLM駆動のAutoMLエージェントに導入し、探索効率を向上させた。
実験フィードバックを通じた 方策反復（Policy Iteration）による改善 を実現し、多様性の欠如と次善解の問題を克服。
より広範な機械学習タスクに拡張可能な汎用フレームワークを提供。

詳細はこちら：https://arxiv.org/abs/2410.17238

8. AFlow: Automating Agentic Workflow Generation

要約大規模言語モデル（LLM）は複雑なタスク解決において大きな可能性を示しており、詳細な指示と手順を伴う エージェントワークフロー（Agentic Workflows） を実行することでタスクを完了させることが一般的です。

しかし：

これらのワークフロー構築には多大な人手が必要であり、拡張が困難。
既存の手法はある程度の自動化を実現しているものの、依然として 初期の人手による設定 に依存しており、完全な自動化と高効率な最適化の達成は困難でした。

この問題を解決するため、本論文では AFlow を提案します。これは、ワークフローの最適化を 探索問題 として再構築する自動化フレームワークです：

ワークフローを「コードグラフ」としてモデル化（ノードはLLMを呼び出す操作、エッジは論理的接続）。
モンテカルロ木探索 (MCTS) を使用して自動的に探索・最適化を行う。
コード修正＋ツリー状の経験蓄積＋実行フィードバックを通じて、ワークフローを継続的に反復改善する。

主な貢献

ワークフロー最適化を コード-グラフ探索問題 に変換した。
AFlow フレームワークを提案し、ワークフローの生成と最適化の完全自動化を実現。
低コストモデル＋高効率ワークフロー の組み合わせが、大規模モデルの性能を凌駕し得ることを証明した。

詳細はこちら：https://arxiv.org/abs/2410.10762

9. Data Interpreter: An LLM Agent For Data Science

要約 LLMベースのエージェントは多くの応用シナリオで強力な能力を発揮していますが、データサイエンス 分野では依然として独自の課題に直面しています：

長期的かつ複雑なタスクリンク： タスク間の依存度が高い。
動的なデータ調整： 中間結果がいつでも変化し得る。
領域知識の必要性： 従来の手法では専門的なニーズをカバーしきれない。

既存の手法は多くの場合 単一タスク に集中しており、エンドツーエンドのプロセスへの適合や、動的なデータ変化への対応が困難でした。そこで論文では、データサイエンスの全工程タスクを自動的に解決できるLLMエージェント、Data Interpreter を提案しました。

主な貢献

エンドツーエンドのデータサイエンスプロセス に向けた初のLLMエージェント。
動的なタスク管理をサポートする グラフベースのタスク分解手法 を提案。
ノードの反復最適化 を通じてコード生成品質を向上。
複数のベンチマークにおいて既存手法を大幅にリード。

詳細はこちら：https://arxiv.org/abs/2402.18679

10. MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework

概要大規模言語モデル（LLM）駆動のマルチエージェントシステムの急速な発展に伴い、自動問題解決は著しい進歩を遂げました。現在のLLMマルチエージェントシステムは 単純な対話タスク は解決できますが、複雑なタスク を処理する際、連鎖的な幻覚（Cascading Hallucinations）により論理の不整合が生じやすいという問題があります。

そこで、研究チームは MetaGPT を提案しました。これは革新的な メタプログラミングフレームワーク であり、人間のワークフローの標準化手法（SOP）を導入することで、マルチエージェントの協調をより信頼性が高く効率的なものにします。

主な貢献

マルチエージェント協調に メタプログラミングの考え方 を導入。
人間のチームの標準作業手順（SOPs）をエージェントのワークフローに組み込んだ。
複雑なタスクの 高効率な分解と役割分担 を実現。
実際のベンチマークタスクにおいて、より高い 安定性と正確性 を実証した。

詳細はこちら：https://arxiv.org/abs/2308.00352