世界でAI活用が進む中、英語学習者が書いた文章をAIがスコア化し予測性能を競う世界最大のコンペティションプラットフォーム「Kaggle(カグル)」が開催する「Feedback Prize - English Language Learning(以下、コンペティション)」が開催されました。約18万人が参加したコンペティションでソフトバンクのデータサイエンティスト 荻野聖也が金メダルを獲得。参加者の上位約1%として金メダルを獲得するまでの取り組みについて、話を聞きました。
ソフトバンク株式会社 AI戦略室 AI&データサイエンス統括部 AIシステム開発部
荻野聖也(おぎの・まさや)
まず、Kaggleや今回のコンペティションはどのようなものか、教えてください。
KaggleはAIや機械学習によるデータ分析をコンペ形式で競う世界的なコンペティションプラットフォームです。成績に応じてメダルや称号が与えられます。コンペは、テーブル分析や画像解析・自然言語処理(NLP:Natural Language Processing)など多岐にわたっています。
コンペの進み方は、まず主催者から出されるAI技術を用いた課題に対し、参加者が課題に取り組み、自分のモデルを構築して、精度を指標にコンペ形式で他参加者と競い合う流れです。本番の前にテストデータを使って精度を試すことができるのですが、2~3カ月ほどのテスト期間中は参加者全員がどの順位にいるのか参加者全員に公表されるため、「スキルの高いあの人が上位にいるな…」と対抗意識を燃やしていました(笑)
コンペの開催期間が終わるタイミングで最終精度をもとにランキング付けされます。この時、おおよそ上位10位+αに金メダル、上位5%に銀メダル、上位10%に銅メダルが与えられます。
メダル獲得は狭き門なんですね… 。
そうですね… 。ただ、成果が認められてメダルを獲得すると、通算の獲得数に応じて「称号」が与えられるという制度があるので、モチベーションにもつながっていると思います。今回私は金メダルを1枚獲得したので「Kaggle Master」の称号をいただきました。
狭き門のメダル獲得にチャレンジしたきっかけを教えてください。
大学院時代からAIを5~6年研究してきて、元々、NLPに興味があったこともあり今回参加しました。昔、似たようなコンペに参加したことがあるのですが、そのときは惨敗してしまったので… 。今回は何としても上位に入りたい! という思いもありました。
今回は具体的にどのような課題が出されましたか?
英語学習者が書いた文章について「語彙(ごい)」や「文法」などの6つの観点で、AIを用いてスコアを予測し、その精度を競うというものでした。
英語学習者とは、米国の8~12学年生(日本の中学2年生~高校3年生に相当)が対象で「第2外国語」として英語を学んでいる人たちですね。大体、テキストが4,000ワード単位で、長いものも短いものも入り交じっている文章をAIで予測しました。
上位を狙うために事前にどんな準備をしていましたか?
自然言語に使われるモデルはめちゃくちゃたくさんあるんですけど、準備段階ではどういうモデルが効くのかを検証したり、外部データを用いてモデルの予測自体を新しい教師データとして使ったり(疑似ラベリング:Pseudo Labeling)をしていましたね。
自然言語モデル
ある任意の言語表現を入力したときの表現が、どの程度自然かあるいはよく見かけるかを確率分布で表したもの
疑似ラベリング
学習時にテストデータの一部を予測したものを含めて学習し、このモデルを使って再度テストデータの全体を学習すること
仕事をしながら準備や本番を迎えるのはとても大変そうですが… 普段の業務とのバランスをどう取っていましたか?
所属している部署では、業務時間の20%をスキルアップに充てて良いことになっているので、その時間を使ってました。ただ、当然それだけだと足りないので… 業務終了後も含めると1日4~5時間はコンペの準備をしていましたね。
かなりハードそうですね…。
ですね。所属部署が所有するGPUサーバーをAIの学習に使わせてもらったり、部署内にはさまざまスキルアップに取り組んでいるエンジニアがたくさんいるので、コンペ参加への理解があったり、バックアップ体制があったことは心強く、とても恵まれている環境だと感じていました。
Kaggleでしか得られない経験を実務へ応用し、新たな技術開発へ
コンペへの参加はソフトバンクの技術開発に生かせると思いますか?
今回のコンペに挑戦することで普段の業務とはまた別のさまざまなナレッジが得られました。日常の業務では、画像解析や自然言語処理を担当しているのですが、今回得たナレッジをテキスト分析やチャットボットなどの自然言語処理技術へ応用していけるのではと思っています。
例えば、AIを扱う際、一番肝になるのは「学習データ」なのですが、実際の業務において「学習データが少ない」ことは、たびたび起こります…。 そんな場面に直面したときにAIの精度をどうあげていくか、予測に対してどうアプローチしていくのか、Kaggleでしか得られない経験が生きてくると言えますね。
今後はどんな活動をしていきたいと思っていますか?
ChatGPTなどの生成系AIなど、技術はかなり目まぐるしく発展しています。その変化をしっかりキャッチアップしつつ、最新の技術と自分が持っている知識を照らし合わせて、ソフトバンクの業務に役立てていきたいです。そのためには今回のコンペティション参加などの経験値が絶対に必要だと思っています。
データサイエンティストにとってKaggleの金メダルは本当に価値があるものです。金メダルを5枚集めると「Grandmaster」の称号をもらえるのですが、5枚のうち1枚はチームではなく個人(ソロ)での金メダルが必要です。私は今回ソロで参加して金を1枚もらったので、次はチームで取り組んだりしながら、世界でも200人程度しか持っていないと言われている「Kaggle Grandmaster」を目標にしてスキルを磨いていきたいです!
関連プレスリリース
ソフトバンクのデータサイエンティストが世界最大のAIコンペティションで金メダルを獲得
~約18万人の参加者のうち上位約1%に相当する「Kaggle Master」に昇格~(2023年1月26日 ソフトバンク株式会社)
(掲載日:2023年5月22日)
文:ソフトバンクニュース編集部