Topic

自然言語処理分野における世界トップレベルの国際会議「ACL 2026」に最新の研究論文が採択

#NaturalLanguageProcessing #LLM #ReinforcementLearning

オムロンサイニックエックス株式会社（本社：東京都文京区、代表取締役社長：諏訪正樹、以下 OSX）は、「The 64th Annual Meeting of the Association for Computational Linguistics」にて、最新の研究論文が採択されたことをお知らせいたします。

ACL 2026は、自然言語処理分野において国際的に権威のあるトップカンファレンスの一つです。7月2日から7月7日（現地時間）にかけてアメリカサンディエゴで開催されます。

採択された研究論文は、以下のとおりです。

ACL 2026での採択内容

[Main Conference]

■ Can Compact Language Models Search Like Agents? Distillation-Guided Policy Optimization for Preserving Agentic RAG Capabilities
^{（日本語訳：蒸留ガイド型強化学習による超小規模言語モデルのAgentic RAG能力の獲得)}

Rikuto Kotoge (The University of Osaka, OSX intern), Mai Nishimura (OSX), Jiaxin Ma (OSX)

近年、大規模言語モデル（LLM）が「いつ検索すべきか」「検索クエリをどう構成するか」「複数の文書をどう統合して回答するか」を自律的に判断するエージェント型RAG（Agentic RAG）が注目されています。しかし、こうした能力はこれまで数十億パラメータ規模の大規模モデルでしか実現されておらず、計算資源の限られた環境での十分な性能を達成する手法は確立されていませんでした。
本研究では、0.5〜1B（Billion）パラメータの超小型モデルにエージェント型検索能力を獲得させることを目指しました。エージェント的な能力は、強化学習（Reinforcement Learning; RL）等の事後学習によって引き出されますが、超小型モデルは初期性能が低く、RLでは報酬がほとんど得られず学習が破綻するという課題があります。これに対し、教師モデルによる蒸留を二つの役割で併用する強化学習フレームワーク Distillation-Guided Policy Optimization（DGPO）を提案しました。蒸留は、学習初期の方策を安定化させる役割と、生徒モデルが誤答した場合にのみ正しい振る舞いへ誘導する役割を担い、正答時には生徒の自律的な探索を妨げません。
7種類の質問応答ベンチマークによる評価の結果、0.5Bモデルの平均性能はほぼゼロ（0.006）から0.329へと向上し、3Bの教師モデル（0.353）に匹敵する水準に達しました。さらに一部のデータセットでは教師モデルの性能を上回ることを確認しました。本成果は、高性能な検索エージェントを計算資源の限られたデバイス上で実現する可能性を示すものであり、大規模なエージェントオーケストレーションにおける軽量なサブエージェントとしての活用も期待されます。

https://arxiv.org/abs/2508.20324
https://github.com/omron-sinicx/dgpo

※所属は、論文執筆時点のものです。現時点では、情報が異なる場合がありますので、あらかじめご了承いただくとともに、ご注意をお願いいたします。

技術に関するご相談・OSXに関するご質問など、お気軽に下記よりお問い合わせください。
お問い合わせはこちら

資料をダウンロード
Download for free

ご覧いただきありがとうございます。
こちらからファイルのダウンロードが可能です。お手数をお掛けいたしますが、以下の項目をご入力いただきダウンロードをお願いいたします。

Thank you for visiting our site.
You can download the content from here.
Please enter the following items to proceed with the download.

名前 Your name
会社名 Company Name
部署名 Department name
メールアドレス Email
電話 Telephone number

お客様の個人情報の取り扱いに関する重要な内容を記載しております。ご一読の上、内容に同意いただける場合は、下記のダウンロードボタンをクリックしてファイルのダウンロードを実施してください。

Below is important information regarding the handling of your personal information. Please read it carefully, and if you agree to the terms, Below is click the download button below to proceed with downloading the file.

＜個人情報取り扱いに関する文章案＞
お客様の個人情報の取り扱いについて

オムロン株式会社およびオムロンサイニックエックス株式会社は、当フォームにてお客様からご提供いただいた個人情報をお客様からのご依頼に基づく対応および確認などに利用させていただき、この目的のため内容の記録を残すことがあります。
お問い合わせに対し、適切な対応をするために、オムロングループ企業に個人情報を含む内容を転送することがございます。
お客様の個人情報は、適切な安全対策のもと管理し、原則としてお客様の同意なく上記の場合を除き第三者への開示・提供はいたしません。
16歳未満のお客様の個人情報については、必ず保護者の方の同意の下に登録いただきますようお願いいたします。
その他、オムロンサイニックエックス株式会社の個人情報の取り扱いに関する考え方についてご覧になりたい方は、こちらをご覧ください。

Please download after agreeing to the above terms.

share