フォーム読み込み中
2025年6月、アメリカ・ナッシュビルで開催された画像処理・パターン認識分野の国際会議「CVPR 2025」で開催されたワークショップ内コンペティション「EgoExo4D」にて、ソフトバンクのAIテクノロジー本部のメンバーが第2位を受賞しました。
本記事では、CVPR 2025の国際コンペでソフトバンクのチームが熟練度推定の精度向上に挑んだ研究とその成果を紹介します。
また、CVPR2025については別記事で紹介をしていますので、合わせてご参照ください。
この記事ではソフトバンクのAIチームがCVPR 2025の映像解析コンペで第2位を獲得した背景と技術的アプローチを紹介しています。
この記事を読むことで、一人称・三人称視点を統合した熟練度推定技術と、その応用可能性について理解できます。
2025年6月、アメリカ・ナッシュビルで開催された画像処理・パターン認識分野の国際会議「CVPR 2025」で開催されたワークショップ内コンペティション「EgoExo4D」にて、ソフトバンクのAIテクノロジー本部のメンバーが第2位を受賞することができました。
今回のチーム構成は、ソフトバンクのAIテクノロジー本部に所属の以下の3名で構成するチームです。
※上の画像では一人称視点の映像収集デバイスを装着しています
プロジェクト推進課
田之上 隼人(たのうえ・はやと)さん
プロジェクト推進課
西原 大輝(にしはら・ひろき)さん
戦略企画課
堀 隆之(ほり・たかゆき)さん
CVPRは、IEEE(米国電気電子学会)とCVF(Computer Vision Foundation)が共催する、CVPR(正式名称:IEEE/CVF Conference on Computer Vision and Pattern Recognition)は、毎年6月ごろに開催される画像処理・パターン認識分野の国際学会です。世界各地から数千人規模の参加者が集まり、1,000件以上の論文が発表されます。2025年は、約3,000件もの論文発表をはじめとして、約120のワークショップや、技術者同士のネットワーキングなどが行われました。CVPR 2025の調査レポートは別記事で紹介しています。
Ego4D consortium主催のコンペティション「EgoExo4D」はワークショップの一つとして開催されました。コンペで解析課題となったのは「Egocentric Vision(一人称視点映像解析)」です。
一人称視点をレーシングゲームを例に説明すると、一人称視点映像(画像左側)はドライバー自身の目線です。自分の手やハンドルが見えます。また、三人称視点映像(画像右側)は、運転している車を後ろから見る視点で、車全体や周りの状況がよく見えます。
この章では採択された論文を調査し、Interspeech 2025の研究トレンドを分析します。
「Egocentric Vision(一人称視点映像解析)」は、近年、AIの映像解析分野において国際的な注目を集めており、VR・ARやロボティクスなど幅広い産業への応用が期待されています。
特に、2023年のCVPRでは、この分野に関するワークショップや論文の発表が多数行われており、急速な技術発展とコミュニティの盛り上がりを強く感じました。
このような背景を受けて、ソフトバンクのAIテクノロジー本部では、R&D(研究開発)活動の一環として、2024年度より「Egocentric Vision」を研究開発テーマの一つとして本格的に取り組み始めました。
これまでの研究で得た知見やノウハウを活かしながら、さらなる技術力向上を目的に、この分野のコンペティションに参加しました。
今回参加したコンペ「 EgoExo4D 」の課題は、マルチビュー動画(1つの一人称視点(ego)+4つの三人称視点(exo)の合計5つのカメラ映像)を用いて実演者の熟練度(初心者、初級、中級、上級)を推定するというものでした。
対象のシナリオは、サッカー、ダンス、ボルダリング、バスケ、料理、演奏の6種類です。
この課題の難しさは、単に動作認識するのではなく、「熟練度」という曖昧かつ主観的なラベルを、複数の視点から得られる情報を活用して正確に推定する点にありました。
当初は一人称視点(ego)のみを用いて映像解析を試みましたが、データに含まれるスポーツシナリオのばらつきによって精度が向上せず、苦戦を強いられました。
そこで以下のようなアプローチを採用して改善をおこないました。
前処理として、シナリオ分類を導入
映像の種類によって視点の有用性が変化するため、まず、Vision Languageモデルを用いてシナリオを分類して、後続の処理を分けました。
一人称視点と三人称視点を融合
一人称視点からはシーンの詳細や手元の動きに強く、三人称視点からは全身姿勢や周辺環境を取得することに強いという特性を活かして、両方の視点を効果的に組み合わせる新たなアプローチを開発しました。
視点ごとの重要度の違いに対応
ケースによってどの視点が重要であるかが変化するため、要素の偏りに対応するために重み付けをする工夫を行いました。
これまでR&Dで培った映像解析技術と機械学習モデル構築の知見を活用し、動画解析に強みを持つ基盤モデルとVision Languageモデルを構築。さらに、シナリオごとに分類器を分けるアプローチを採用することで、精度の高い推定モデルを開発しました。私達の考案した手法を以下の図に示します。
その結果、以下のような精度を達成しました。
マルチタスク学習で43.6%の精度
二段階パイプラインで47.8%の精度
特に、以下のような知見が得られた点にも注目しています。
ダンスや音楽といった「全体的な空間把握が必要なタスク」では exo(三人称視点)が有利に働く
ロッククライミングのように「身体の細かい動きが重要なタスク」では ego(一人称視点)が有利
最終的に、本アプローチと成果が評価され、全世界の参加チームの中で第2位を受賞しました。
国際的な競技の場で、日々の研究開発で培ってきた技術や知見を活かせたことが、今回の2位の評価につながったと考えています。昨年は別のコンペに挑戦したものの受賞には至らず悔しい思いをしましたが、今年新設された本コンペで結果を残すことができました。
約2カ月という短期間での開催でしたが、集中して取り組むことで、考案したアプローチが有効に機能し、モデルの精度を大きく向上させることができました。特に、改善の手応えを感じられた瞬間は大きな達成感がありました。
第2位という結果には満足感とともに、あと一歩で優勝に届かなかった悔しさもあります。しかしその思いが、次へのモチベーションとなっています。
また、こうした成果は、日常的に研究開発に取り組める環境や、計算リソースをはじめとするインフラの支援があってこそ実現できたものであり、改めて周囲のサポートに感謝しています。
AI分野は日々めまぐるしく進化しており、最新の技術や研究成果をキャッチアップしながら開発を行い、世界に向けて挑戦していくことそのものが、私たちにとって大きなやりがいです。
私たちの部門では、社内のAI活用に関する技術相談窓口も担っており、特に既存の技術では解決が難しい課題に対して、自らの知識や経験を活かして具体的な提案や技術支援ができたときに、強い達成感を感じます。
その成果が社内外の新しいチャレンジや技術発展のきっかけになる可能性があることも、大きなモチベーションになっています。
また今回のコンペを通じて、ロボティクス分野との親和性が高い技術にも触れることができました。普段からロボット領域の研究開発に携わっていることもあり、本コンペで得られた知見や手法が、将来的にロボティクス技術への応用に発展する可能性を感じながら取り組むことができた点は、非常に有意義な経験でした。
今回のワークショップコンペを通じて得られた知見や手法は、今後、ロボティクスなどの分野への応用を視野に入れています。特に、人の動作理解や技能推定に関する技術は、ロボットの動作最適化や意思決定プロセスの高度化に大きく貢献する可能性があります。今後は、これらの技術をロボットの認識・制御システムに統合し、実環境での有効性を検証しながら、より複雑で多様なタスクへの適応性を高めていくことを目指しています。
また、私たちは研究開発を通じて世界に挑戦し、その成果を業務や事業に還元していくことを重視しています。今回のような国際コンペティションや学会活動で得た知見は、社内の技術力強化や新規サービスの創出にもつながると考えており、今後も積極的にこうした場に参加していきます。
特に、生成AIは今後の社会や産業に与える影響が非常に大きく、私たちとしてもビジネス・研究の両面から注目しています。こうした先進的なテーマにも積極的に取り組み、社内外での活用可能性を探るとともに、新たな価値の創出に向けて挑戦していきます。
ぜひこれからの活動にも期待してください!
条件に該当するページがございません