2025/04/16

オムロン サイニックエックス株式会社(本社:東京都文京区、代表取締役社長:諏訪正樹、以下 OSX)は、「The 64th Annual Meeting of the Association for Computational Linguistics」にて、最新の研究論文が採択されたことをお知らせいたします。
ACL 2026は、自然言語処理分野において国際的に権威のあるトップカンファレンスの一つです。7月2日から7月7日(現地時間)にかけてアメリカ サンディエゴで開催されます。
採択された研究論文は、以下のとおりです。
ACL 2026での採択内容
[Main Conference]
■ Can Compact Language Models Search Like Agents? Distillation-Guided Policy Optimization for Preserving Agentic RAG Capabilities
(日本語訳:蒸留ガイド型強化学習による超小規模言語モデルのAgentic RAG能力の獲得)
Rikuto Kotoge (The University of Osaka, OSX intern), Mai Nishimura (OSX), Jiaxin Ma (OSX)
近年、大規模言語モデル(LLM)が「いつ検索すべきか」「検索クエリをどう構成するか」「複数の文書をどう統合して回答するか」を自律的に判断するエージェント型RAG(Agentic RAG)が注目されています。しかし、こうした能力はこれまで数十億パラメータ規模の大規模モデルでしか実現されておらず、計算資源の限られた環境での十分な性能を達成する手法は確立されていませんでした。
本研究では、0.5〜1B(Billion)パラメータの超小型モデルにエージェント型検索能力を獲得させることを目指しました。エージェント的な能力は、強化学習(Reinforcement Learning; RL)等の事後学習によって引き出されますが、超小型モデルは初期性能が低く、RLでは報酬がほとんど得られず学習が破綻するという課題があります。これに対し、教師モデルによる蒸留を二つの役割で併用する強化学習フレームワーク Distillation-Guided Policy Optimization(DGPO)を提案しました。蒸留は、学習初期の方策を安定化させる役割と、生徒モデルが誤答した場合にのみ正しい振る舞いへ誘導する役割を担い、正答時には生徒の自律的な探索を妨げません。
7種類の質問応答ベンチマークによる評価の結果、0.5Bモデルの平均性能はほぼゼロ(0.006)から0.329へと向上し、3Bの教師モデル(0.353)に匹敵する水準に達しました。 さらに一部のデータセットでは教師モデルの性能を上回ることを確認しました。本成果は、高性能な検索エージェントを計算資源の限られたデバイス上で実現する可能性を示すものであり、大規模なエージェントオーケストレーションにおける軽量なサブエージェントとしての活用も期待されます。
https://arxiv.org/abs/2508.20324
https://github.com/omron-sinicx/dgpo
※所属は、論文執筆時点のものです。現時点では、情報が異なる場合がありますので、あらかじめご了承いただくとともに、ご注意をお願いいたします。
技術に関するご相談・OSXに関するご質問など、お気軽に下記よりお問い合わせください。
お問い合わせはこちら