OMRON

OMRON SINIC X Corporation | Japan

コンピュータビジョン分野の世界トップレベルの国際会議「ICCV 2025」で最新の研究成果を発表

オムロン サイニックエックス株式会社(本社:東京都文京区、代表取締役社長:諏訪正樹、以下 OSX)は、「International Conference on Computer Vision, ICCV 2025」にて、最新の研究成果を発表します。

「ICCV」は、コンピュータビジョン分野において国際的に権威のあるトップカンファレンスの一つです。2025年は、11,239件の投稿の中から2,701件(約24%)の論文が採択され、10月19日から10月23日(現地時間)にかけてハワイ ホノルルで開催されます。
OSXより発表する研究論文は、その卓越した研究内容と潜在的な影響力が評価され、ハイライト論文1)として選出されています。
1) 2025年は、2,701件の採択論文の中から、263件(約9.7%)がハイライト論文に選出

論文の詳細は、次のとおりです。

ICCV 2025での採択内容

■ CaptionSmiths: Flexibly Controlling Language Pattern in Image Captioning
(日本語訳:キャプションスミス:画像説明文のスタイルを柔軟にコントロールする手法の提案)

Kuniaki Saito (OSX), Donghyun Kim (Korea University), Kwanyong Park (University of Seoul), Atsushi Hashimoto (OSX), Yoshitaka Ushiku (OSX)

CaptionSmiths は、画像の説明文(キャプション)における言語のスタイルを柔軟に操るための手法を提案しています。これまでの、画像説明生成を行うVision-Languageモデルは、「短い説明」「長くて詳しい説明」などを思い通りに切り替えるのが苦手でした。
本論文で提案するCaptionSmithsは、説明文の

 ● 長さ(短い ↔ 長い)
 ● 詳しさ(シンプル ↔ 詳細)
 ● 語彙の独自性(一般的 ↔ ユニーク)

といった特徴を数値で表し、その間をなめらかに調整できます。つまり「ほんの少し長めに」「ややユニークに」といった細かいコントロールが可能です。
実験では、CaptionSmithsにより文章の正確さを高めるだけでなく、説明文の長さを調整する精度が従来の最先端モデルに比べ、5倍以上改善しました。

https://arxiv.org/abs/2507.01409
https://ksaito-ut.github.io/captionsmiths_web/

  
※所属は、論文執筆時点のものです。現時点では、情報が異なる場合がありますので、あらかじめご了承いただくとともに、ご注意をお願いいたします。
 



技術に関するご相談・OSXに関するご質問など、お気軽に下記よりお問い合わせください。
お問い合わせはこちら

share
home
ページ
上部へ