SNSボタン
記事分割(js記載用)

入社して2年、日本発のAI研究で世界へ。世界最高峰の国際会議「ACL」で論文採択

入社して2年、日本発のAI研究で世界へ。世界最高峰の学会「ACL」で論文採択

「あれ…、鍵をどこに置いたっけ…?」
うっかり物を置いた場所を忘れてしまうことってありますよね。日常生活のささいな困りごとまで、AIがサポートしてくれる、そんな未来を実現する技術の一つが自然言語処理を応用した「画像キャプショニング」なんです。

ソフトバンクがAIの活用を目指し研究開発に取り組む中、AI戦略室 髙田拓実の主著論文が、自然言語処理分野における世界最高峰の国際会議「ACL」で採択され、2024年8月に行われた学会のメインカンファレンスで発表を行いました。

左:堀 隆之(ほり・たかゆき)/右:髙田 拓実(たかだ・たくみ)

ソフトバンク株式会社 IT統括 AI戦略室

左:堀 隆之(ほり・たかゆき)
右:髙田 拓実(たかだ・たくみ)

AI技術に関する案件の相談から企画・研究・開発まで幅広く担当。技術検証から事業検討を行うとともに、大学と共同研究を進め、革新的な新技術の研究および事業化に取り組む。

論文採択は全体の20%。自然言語処理の世界最高峰「ACL」

自然言語処理と計算言語学の分野を推進することを目的とした世界最高峰の学術団体「Association for Computational Linguistics (ACL)」。毎年夏に開催される国際会議(学会)で、最新の研究成果が発表されます。自然言語処理は、AIの中でも特に世界的な注目を集めている分野であり、2023年の「ACL」への論文投稿数は4,559件、採択率20.73%と年々投稿数は増加。Google やOpenAIなどの大手テック企業だけでなく、世界中の研究機関が技術開発に注力し、競争は激化しています。

論文採択は全体の20%。自然言語処理の世界最高峰「ACL」

日常が劇的に進化する「画像キャプショニング」の可能性

今回論文のテーマでもある「自然言語処理」や「画像キャプショニング」技術について教えてください。

髙田 「『自然言語処理』とは、人間が普段使用している言語(自然言語)をコンピューターに処理させる一連の技術のことです。この技術をベースに、AIが写真やビデオなどに映ってる情報を理解し、自然言語でどんな情報かを伝える技術が『画像(映像)キャプショニング』となります」

「単純にスマホを見て『スマホ』だと言葉にするだけではなく、『どういう状況にあるのか』『どんな意味があるのか』というような上位概念にまで踏み込みたいと考えています。一対一ではなく、“人間らしく理解すること” が目指したい究極の世界観です」

「画像キャプショニング」が活用されると、どんな未来が待っているのでしょうか?

髙田 「例えば、スマホで写真やビデオを撮りながら、随時その状況を自動的に音声で生成できれば、視覚障がいのある方が周囲の状況を理解するサポートに。また、医療ではAIが画像からくみ取ったことを対話しながら診断したり、自動運転でも人が感覚的に判断していることをAIが判断できるようになったり」

「異なる種類の情報をまとめて扱うAIのことを『マルチモーダルAI』というのですが、画像や映像だけでなく、音やいろんなセンサーと掛け合わせることができる。これらが実現できれば、さまざまな方面へ応用できると考えています」

髙田 「近い将来、スマートグラスをつけて、自分が見てる景色と同じ景色をAIに共有させておいて、『鍵をどこに置いたっけ?』とAIに聞くと答えてくれる。そんな未来が実現しているかもしれません」

日常が劇的に進化する「画像キャプショニング」の可能性

世界で感じた日本のAI研究への危機感

今回の「ACL」挑戦は、何がきっかけだったのでしょうか?

「海外の学会に参加してみると、日本発の技術がすごく少なく、数年先の日本に危機感を抱くほど。この現状を何とかしなきゃいけないと思い、AIの分野で存在感を出していくためにも、国際コンペに挑み始めました。新しい研究分野であるマルチモーダルAIに取り組み、『TRECVID 2022』では、文章に合致する映像シーンを検索する映像検索部門で世界第1位を獲得しています。

『ACL』の論文では『TRECVID 2022』とは逆のこと、画像から言語に起こすということに挑戦しました。技術的な共通性があり応用が利くと思ったんです」

米国国立標準技術研究所の「TRECVID 2022」の映像検索部門で世界第1位を獲得 (2022年11月28日 ソフトバンク株式会社 プレスリリース)

世界で感じた日本のAI研究への危機感

「ACL」に論文が採択されるというのは、かなりの難関だそうですね。

髙田 「今年も5,000本くらい論文が世界から集まり、本会議に採択されたのが20%くらいと聞いています。その中でも日本からの投稿はすごく少なくて、私が確認した限り10本もなかったと思います」

堀さん 「米国と中国で8割くらいを占めていて、二極化していますよね」

その理由は?

髙田 「まずは、AIの研究開発にかかる費用がものすごく高額になってきたことだと思います。最近の大規模なAIモデルを学習できるような計算サーバーは1,000万円超えも珍しくありません。これを何台もそろえるというのは、小規模な研究室では難しいですよね。米国や中国は研究資金が潤沢なため、豊富な計算サーバーを使った実験がたくさんできて、それがそのまま研究力の差につながっていると思います」

「AI研究では『計算リソース」『アルゴリズム』と『データ』が 重要だと言われています。『計算リソース』は、先ほどの計算サーバーの話で資金が問題になってくる。『アルゴリズム』は優秀な人材がいるかどうか。『データ』のところでいうと、日本語は特殊なので、それを使って研究しても世界にはなかなか響かない。アルゴリズムとか、LLM(大規模言語モデル)のアプローチとか、そういった根幹的なところで勝負していなかったのではないでしょうか。今、日本が戦えなくなってきている原因の一つのように思っています。髙田さんは、そのど真ん中で戦ってくれています」

髙田さん 「今回の論文では根本となる学習手法に関して触れているので、結構反響があり、興味を持って聞いてくれる人が多かったと感じています」

「世界に通用する技術ですからね」

日本から世界へ。世界で通用する新手法を研究開発

日本から世界へ。世界で通用する新手法を研究開発

今回、採択された論文というのはどういった内容になるのでしょうか?

髙田 「テキストだけでなく画像などの視覚情報も扱えるLLM(大規模言語モデル)は、VLM(大規模視覚言語モデル)と言うのですが、この学習手法について研究したのが、私の論文になります。これまでの学習手法にかかっていた計算コストを数十倍から数百倍と大幅に削減し、かつ学習性能も安定するというメリットがあります。従来の手法と同等の性能が出せることを理論的にも示し、かつ実験的にもさまざまなモデルとデータセットで検証して論文にまとめました」

簡単に説明するのは難しいとは思うのですが、ポイントを教えていただけますか?

髙田 「こちらの図が従来の手法(左)と今回の手法(右)の違いを表しているものです。

日本から世界へ。世界で通用する新手法を研究開発

従来(左)は、強化学習という手法が用いられています。VLMがより良いキャプションを探索するために、新しいキャプションを作ってみて、そのキャプションに対してリワード(報酬)をもらい、その報酬をたくさんもらえるようにモデルの学習を繰り返していくというもの。問題は都度キャプションを生成する必要があるので効率が悪く、計算コストがかかる要因となっていました。また、大ざっぱに言ってしまえば手当たり次第にいろんな文章を生成してみた結果、良かったものを学習に使うみたいな手法だったので、学習の安定性の面にも課題がありました」

右の図では真ん中の部分がなくなっていますね。

髙田 「はい。こちらが私が考えた『ダイレクトメトリック最適化(DMO)』手法になります。左の従来の手法はリファレンスデータをVLMが間接的に利用しているのですが、DMOでは直接データを参照し学習することで、大幅に計算コストを削減し、性能を上げています」

日本から世界へ。世界で通用する新手法を研究開発

データセットの構成も変わっています。

髙田 「そこが工夫した点です。DMOは強化学習の探索フェーズをスキップすることで計算コストを減らしていますが、それと引き換えに学習に使うデータセットの多様性を失っています。その失った多様性を補うために、計算コストが安価なデータ拡張を行って、AIが学ぶデータの多様性を担保しています」

この研究成果はどのような貢献につながるのでしょう?

髙田 「今回の論文では根本となる学習手法に関するものであり、さまざまな手法にも応用が可能です。計算コストを下げることができるので、より多くの人がAIを使える環境づくりにつながると思っています」

国際会議「ACL 2024」で論文が採択~画像キャプショニングモデルの学習に必要な計算コストを大幅に削減する新手法を開発~ (2024年8月5日 ソフトバンク株式会社 プレスリリース)

新しい技術や人との出会い。研究って楽しい

髙田さんが、入社してまだ3年目だと聞いてびっくりしました。

髙田 「メンバーの皆さんがめちゃめちゃ優秀な方ばかりだったので、サポートいただきながら書き上げることができました。困ったり、何かつまずいたら相談して解決できる。知らない情報も得られるという安心感。感謝の気持ちでいっぱいです。大変だったこともあるのですが、環境に恵まれて解決できたかなと思います」

「私たちのR&Dチームには優秀な人材が集まっていますし、その人材を生かせる場や計算リソース、チャレンジする風土があります。そういったところで実力のある人は、遺憾なく能力が発揮できるんじゃないかなって思っています。元々髙田さんは優秀なんですが、チームメンバーもアルゴリズムを生み出す人材がそろっていたことでうまくいきました。いろんな人から刺激を受けながら、自分の時間をうまく効率的にマネジメントして進めていましたね」

最終的には結果も出て、こんなにうれしいことはないですよね。

髙田 「本当に最高です。採択通知が来たことだけではなく、お世話になったR&Dのメンバーからメッセージをいただき、とてもうれしかったです」

「やっぱり努力した結果が実るというのは、何事にも変えられないことですよね。おまけに海外出張で学会発表もできるっていうのは、なおいいことなんじゃないですか。海外で発表すると、そこでの出会いがあって、より自分の興味やスキルを高められるチャンスが多分にあるんですよ」

髙田 「堀さんがおっしゃった通り、いろんな人に会えて刺激をもらえたことが、個人的に一番大きなことでした。ネット上の論文を読んでも、どんな人が書いたかも分からないので、どこか無機質で、難しく感じてしまう。実際に会ってみると思っていたより若く、同年代の研究者たちがこんな論文を書いてるのだと知ると『すごいな』と思う気持ちと、『自分も、日本も頑張らないと』と思いますね」

新しい技術や人との出会い。研究って楽しい

さらにモチベーションがアップしちゃいますね。

髙田 「映像と言語のマルチモーダルAIは、社会に与えるインパクトが大きい分野だと思っています。その研究分野で貢献できるというのは、やりがいも大きいですね。あと結局… そうですね、『研究が好きだから続けている』みたいな所はあります」

「研究って楽しいですよ。苦しいとこもあるけど、それを達成し、乗り越えたときの楽しさだったり、もしくは同じ悩みとか課題を共有する同僚も含めて、研究者っていうネットワークやコミュニティーの中に入っていくことの楽しさだったり。世の中にない技術に挑戦してる人とコミュニケーションすると、やっぱり熱をもらうことができる。そういった人や技術との出会いが楽しくて、みんなやってんじゃないですかね」

(掲載日:2024年9月18日)
文:ソフトバンクニュース編集部

ソフトバンク 新卒採用

GO BEYOND THE CHALLENGE

ソフトバンクは、めまぐるしいスピードで変わりゆく次世代に向けて、変化に富んだ環境で活躍できる人材を求めています。あなたのチャレンジ、お待ちしています。

新卒採用:
募集職種・選考フロー