We are Shaping the Future! 私たちが手繰り寄せる未来ストーリー
人と機械は互いに支え合うことで、もっと成長できるのか。オムロンのコア技術「センシング&コントロール+Think」を象徴する卓球ロボット「FORPHEUS(フォルフェウス)」は、最新の第9世代において初めて大規模言語モデル(LLM)を搭載しました。
人と機械が意志を伝え合うことで、人の能力の成長を促し、人の可能性を引き出すことを目指した、第9世代フォルフェウス。その開発背景とさらにその先にある人と機械の関係性について聞きたいと思います。オムロン株式会社にてフォルフェウス開発リーダーをつとめる山本 和夫(やまもと・かずお)と、マルチモーダルな情報を言語化しLLMへインプットできる技術「ViLaIn(ヴィラン)」を開発したオムロン サイニックエックス株式会社 Principal Investigatorの橋本 敦史(はしもと・あつし)による対談をお届けします。
<聞き手:西村 勇也(にしむら・ゆうや) NPO法人ミラツク代表>
西村:卓球ロボット「フォルフェウス」の開発におけるチャレンジや、オムロン サイニックエックスでの取り組み、オムロンの未来シナリオ「SINIC(サイニック)理論」で2025年から訪れるとされる自律社会に向けた探求についてお話を伺っていきます。まずは少し遡って、オムロンに入る前後のことを教えていただけますか。
山本:私は大学院で生命機能研究科という学際で学び、物理と生物の間のような研究に従事した後オムロンに入りました。入社してからは検査装置の開発チームで照明の設計や三次元計測技術の開発に携わりました。2015年頃に自動運転が出始めたことで、同じ三次元の計測技術を活かしドライバーをモニタリングする計測システムの開発をしました。最近では、視覚障がいがある方の移動を支援する自律型ナビゲーションロボット「AIスーツケース」の開発に参画するなど、改めて振り返ってみると、一貫して三次元の計測技術の開発に関わってきましたね。
橋本:私は大学から情報系でした。データドリブンの手法に出会い、機械学習の研究を面白いと感じたのも学部の頃です。三次元形状計測系の研究にも取り組み、現在は人間の行動理解みたいなことをメインテーマに研究しています。
2018年、オムロン サイニックエックス(OSX)の創設メンバーとしてOSXに入社しました。入社後はずっと、人間の行動理解の中で、手順書を見ながら行う行為を研究の対象にしてきました。そのため、割と早い段階で、手順書の言語と行動の映像を組み合わせたマルチモーダル処理とかクロスモーダル処理、あるいは、ビジョン&ランゲージと呼ばれる技術にアプローチをしていたのです。OSX社内にはすぐ隣にロボットチームがいますので、何か一緒に面白いことできないかと考え始めた時に、「ビジョン&ランゲージ+ロボット」をやってみようという話になって、始まったのが、料理ロボットの開発です。
我々は当初、食材や調理器具といった物を動かす以外のことも言語でできるようにしようと考えていました。そこで考えたのが、認知科学者のドナルド・ノーマンがモデル化した、人間の「行為の7段階モデル」と呼ばれる思考プロセス理論です。
※論文の内容を元にオムロンでイメージ図を作成
「行為の7段階モデル」では、道具をデザインする時に、その道具を目の前にした人が使えたり使えなかったりすることについて、使えない理由がどこにあるのかを詳細にモデル化しています。そこで、人をロボットに置き換えて考えてみました。ロボットが道具とタスクを目の前にした時、なぜそのロボットはできないことがあるのか。できるようにするために、乗り越えなくてはいけない最初の段階を、ビジョン&ランゲージモデルで解決できないだろうか、と考えたんです。
ロボットにタスクを実行してもらうために、まず人が目指している目標状態について人とロボットの共通理解を構築します。この部分は行為の7段階モデルでいう意図の形成に対応し、この部分に機械学習モデルを使っています。人とロボットでタスクが到達すべき目標状態について合意が得られれば、ロボットは初期状態から目標状態へと至る状態遷移を特定することができます。逆にロボットが意図に合わない目標状態を想定しているなど合意が得られないときはこの段階でフィードバックし訂正していきます。あとは、既にある作り込まれた信頼できるシステムで、実際に行動し目標状態へと到達できる。そう考えて作ったのが「ViLaIn(ヴィラン)」というコンセプトです。当初は料理ロボットのための技術でしたが、最新型のフォルフェウスで導入していただけることになり、個人的にも嬉しく思っています。
※ViLaIn(ヴィラン):Vision-Language Interpreter for Robot Task Planning
西村:進化し続けてきた卓球ロボット・フォルフェウスですが、どのような発展の歩みだったのか、教えていただけますか。
山本:初めは2013年、中国の展示会向けに作った卓球ロボットでした。その時は、カメラによる三次元計測とPLC(プログラマブルコントローラー)でラケットを制御するというものです。ボールを認識して、ラケットの姿勢と速度を変えて、ボールの位置にラケットを持ってくるというセンシング&コントロールですね。
その後、対応できる速度も速くなって、卓球そのものも強くなっていくわけですが、オムロンが目指しているのは「人と機械の融和」の関係です。ボールをラケットに当てられるようになり、次はコーチングができるようになり、第6世代からはプレイヤーの表情を認識して、卓球をするモチベーションを向上させるような働きかけができるようになりました。
今回の第9世代では、プレイヤーとフォルフェウスの間で対話ができるところまで進化しました。卓球をするプレイヤーには、それぞれ異なる意思があります。思い切り打ち込んでスカッとしたい人もいれば、適度なラリーを続けることを楽しみたい人など、対話をしてみないとロボット側にはわかりません。そこで音声による対話と意思疎通に取り組み出したのです。
対話ができると言っても、人からロボットに向けた片方向の音声指示ではなく、ロボット側からプレイヤーに向けた提案をしていきたいと考えました。そのためにはプレイヤーを細かく観察して、機械が分析して提案をする必要がある。そこでぜひ橋本さんのViLaInやマルチモーダルに情報を捉える技術で進化させたいと考えました。
西村:では今回、第9世代開発において、特に特徴的だったことはどんなことですか。
山本:対話ができるようになるということは、話すための目的が必要でした。何も理由なく対話を続けることは難しいですから。そこで例えば、1分間に何回ラリーを続けられるか挑戦してみる、という目的を作ってみます。そうすることで人と機械が対話をしながら、1分間の限られた時間でラリーが続く条件を一緒に見つけ出すというゴールを設定するのがいいのではないか、と考えました。具体的には「ここに打ってくれると返しやすい」といった会話ですね。ラリーの状況や、プレイヤーのスキル、表情などを認識して言語化することで、機械側からの提案もできるようになる。そんな仕組みを取り入れたのが最新の第9世代の特徴です。
橋本:なるほど、人と機械とでゴールを共有するのですね。先程言った「行為の7段階モデル」の1段階目と2段階目は、「ゴールを決める」ことと「意図の形成」なんです。そうやって人と機械が一緒にゴールを決められたら、次は達成に向けた具体的な方策を機械が考えてくれる、あるいは、対策も人間と一緒に考えて、最終的にちゃんと達成できるようになる、と。
形成された意図をどうやってロボットが具体的に判断するか。これは「行為の7段階モデル」でいう3、4段階目、「行為の詳細化」と「実行」に該当します。ロボットではモーションプランニングに近い動きになりますよね。
ちなみにViLaInのコンセプトでは、「行為の7段階モデル」を全部ぐるっと回すことが基本的な発想です。4段階目までで実行した後は、評価の過程になるので、5段階目では状況を観測し、6段階目で状況を解釈、そして7段階目に結果を評価します。その後でまた1、2段階と回していくんです。今のお話を聞きながら、第9世代のフォルフェウスは、第5、6、7、1、2段階にあたるようなパーセプション(認知)部分をすごく作り込まれている段階なんだと理解できました。
西村:この先フォルフェウスは、プレイヤーが勝ちたいのか、楽しみたいのか、といったことも知る必要が出てくるでしょうし、卓球を通して、人間というものの理解がどんどん高まっていくように思いました。では、今回の開発の中で、想像を超えたハードルは何かありましたか?
山本:はい、LLMのハルシネーション*の問題はそのひとつだったと思います。LLMは今回、新たに利用したので、どうしても何が出てくるかわからないというか、出てきた結果が、そもそもロボットが動かせる範囲外だったりすることが起きてしまいます。そうなった際、正しい結果が出るよう、再度LLMへインプットすることができるシステムになっているViLalnのおかげで、その問題に対応することができるようになりました。
* 生成AI等の出力が現実には存在しない情報や、誤った情報を生成してしまう現象
橋本:LLMの機械学習を最小限にしたViLaInのメリットは、まさにそうした、機械が動かない範囲の出力がされた、とわかることです。全てがブラックボックスだと機械が壊れるような動きをしかねませんが、途中の出力を理解して判断することができます。卓球の場合はリアルタイム性が必要になってくるかもしれませんが、そうでない場合は途中の出力で人が直接直してあげて良いものにできることは、ViLaInのコンセプトで重要だと思っている点です。ViLalnの良いところは、説明性があるから安心できるということだけでなく、作り込んだものをいきなりシステムの中に入れられるという速報性と考えています。全部機械学習で実行するモデルの場合は、動かしたデータを集めてから初めて言語で動くようになるので、システムで扱うことができるようになるまでにどうしてもギャップが発生してしまいます。
西村:フォルフェウスみたいなものを作れる会社って、技術的にはあるのかもしれないですが、人と機械の融和といった方向で技術を発展させる会社はないように思うんです。しかもそれについてきてくれるチームメンバーもいる。フォルフェウスの開発において、オムロンという会社としてのビジョンが効いていると感じることはありますか?
山本:そこを紐解いていくとやはり、SINIC理論があり、自律社会への想いがあり、ひいてはオムロンらしさになるのかもしれません。フォルフェウス開発プロジェクトは、毎年メンバーが入れ替わる中で、根幹となる想いはちゃんと引き継がれています。それはきっと私たちが大切にしているフィロソフィーみたいなものを、しっかり受け継ぐという意思があるから。各世代のメンバーがそれぞれ「自分の融和はこれだ」と、考えていることも大きな特徴かと思います。
西村:橋本さんは、まさに会社の名前自体がSINIC Xですが、目指す社会像と、開発や研究はどう関係していますか?
橋本:普段はあまりSINIC理論を意識することはないんです。それは、できるだけ先入観を持たずに自由に発想しようと思っているためです。ただ、システムをデザインするときって、システムの外と中の界面にインターフェースができるので、人がどう関わるかを絶対に考えないといけなくなるんです。その意味で僕は、人と機械の融和を掲げていることは、すごく賢いことだと思うんですよ。
昔のインターフェースはかっちり決まったフォーマットで最適化するという考え方でしたけど、LLMみたいなものが出てきて、フワッと繋がりだしている。言語って、フォーマットも決まってないし、好き勝手な状態で成り立っている、かなり"ゆるふわ"な界面です。今後いかにスムーズに、最適化せず、省エネでつながることができるのか。僕個人はそんな風に自律社会を解釈しています。
山本:僕も今回、フォルフェウスに取り組みはじめたことで、自律社会のイメージができてきたんですよ。これまでは一部の専門家やしっかり学習した人にしか扱えなかった機械を、言語によって誰でも扱えるようになると、一気に裾野が広がっていくはずです。垣根がなく、誰でもやりたいことに参入できる社会に向かっていくように感じています。
西村:フォルフェウスは、人間が来てくれないと何もできないという意味ですごく変わったロボットだと思うんですよね。人と機械がお互い組み合わさって初めて起動する。これは人が拡張されているのか、それとも、人の拡張を超えたものだとしたら、人とAIの関係はどうなっていくのか。お二人はどうお考えですか。
山本:以前、社内で話をしたことがあります。融和というと、人と機械が向き合っている共同的な関係だよね、と。「人と機械の関係はWeの関係」、その意味でもやっぱり、自分の体のどこかにくっついて助言してくれるような存在なんじゃないかと思っています。
橋本:確かに自分の能力を拡張してくれる貢献があるものですよね。ただそれは、身体の外側にいる第三者だと見れば、自己拡張というよりもチームに近いかもしれません。あるいはコーチだったり、練習して高め合うパートナーとか。
フォルフェウスは、インフラにも近いような気がします。全員に等しく能力拡張の機会を与えてくれる存在。YouTubeも動画を見ることで、一番上手な人に教わったり、最先端の研究を研究者本人から聞けたりする能力拡張のものすごいインフラでもあるので、そういう存在のひとつにいよいよ機械がなっていくのかなぁと考えることがあります。
西村:すごく面白いですね。では最後にこれからもフォルフェウスの発展が続いていくなかで、ここで得られた理解や新しい考え方がどのように社会のために活かされると、人はどう変わっていくのか。あるいは、どう変わらなければいけないと思われますか。
山本:これからの自律社会では、専門的な知識がない人でも機械にアクセスできるような、誰もが機械を動かせる社会になっていくだろうと考えています。例えば製造の現場などでは、装置の設定や器具を変更する段取り替えなど、よく理解できている人じゃないとできないことがまだまだあります。でも、ある程度のことであれば言語で制御した機械が自らパラメータを変えたり、そういう広がりは生まれるだろうと、今回関わったことで改めて思いました。
橋本:そうですね。僕自身、現場のエンジニアが知識ゼロからでもロボットを使用できる未来を目指して作ってるところがあります。ただ、社会問題として、これからますます働く人がいなくなっていくのは確定事項ですから、能力拡張というか、機械を自分のパートナーとして、あるいは自分の分身的なツールとして、あらゆるところで使えるようにしなきゃいけないなと、課題を探すときに考えています。
そして、パートナーである以上は依存するのではなく、「こうなりたい」というゴールを人と機械が共有することが大事だと思うんです。そうすれば、機械は問いかけができるようになり、意思決定においては人間ができますよね。
山本:そうすれば、人が機械を信頼でき、より人に伴走する存在となるかもしれませんね。
橋本:そうです。ゴールを共有することは決して、手段ファーストではないということです。ゴールをAIに決めさせるとAIは反乱するみたいな話はあることなので、機械学習でいうと、最適化の目的関数は人間がコントロールして決めさせる必要があります。ゴールは人間が握っておくことが、常に大事になるでしょう。
西村:本日は大変興味深く、面白い話をお聞かせいただきありがとうございました。こういうお話はぜひ、開発に携わる方だけではなくて、オムロンのステークホルダーの方々に広く知っていただけるといいなと思います。