ViLaIn（ヴィラン） Vision-Language Interpreter for Robot Task Planning – Activity

ViLaIn（ヴィラン）

Vision-Language Interpreter for Robot Task Planning
専門知識がなくてもロボットを制御可能なフレームワークの提案

ViLaInフレームワーク

ユーザーの指示事項に基づき、「初期状態」から「目標状態」への動作手順を生成することで、ロボット制御を実現可能

マルチモーダルな入力に対応

言語情報を組み込んだマルチモーダル構成により、ユーザーは直感的にロボットに指示可能

ユーザーの意向に沿う修正機構

LLMが生成した「初期状態」と「目標状態」に誤りがあった場合、ユーザーは修正指示を行うことで意向に沿ったロボット制御を実現可能

『きゅうりを切ってお皿に盛り付けて』等の日常会話で、映像と言葉から意図したロボット動作の手順を生成できるAI技術です。

ユーザーの指示に基づき、LLMが「初期状態」から「目標状態」への動作手順を生成することで、専門知識無しでロボット制御を実現可能

ユーザーは専門知識がなくても直感的にロボットへ指示が可能

LLMからの生成に誤りがあった場合、ユーザーが修正できるフィードバックループにより指示通りの動作が実現可能

名前 Your name

会社名 Company Name

部署名 Department name

メールアドレス Email

電話 Telephone number

ViLaIn（ヴィラン）