画像の自動認識やレシート上の文字の読み取りなど、あらゆる場面で使われているAI。賢いイメージがありますが、そんなAIにも先生が必要だとご存じでしょうか? AIの機械学習の代表的な方法のひとつ「教師あり学習」には、“正解”のデータやラベルが欠かせません。しかし、正解となる”教師”データを作るために、AI開発エンジニアが膨大な時間を費やしているそうです。
今回、その教師データの作成(=アノテーション)をAIエンジニアの代わりに行うサービス「TASUKI Annotation(タスキ アノテーション)」の担当者に、AI開発エンジニアが抱える課題やサービスの特長についてお話を聞きました。
目次
- 人間と同じように学習していくAI。欠かせないのは、「教師データ」
- 膨大なアノテーション作業がAIエンジニアの大きな負担に
- 1枚の教師データを作る時間が約100分の1に! アノテーション代行サービスで業務を効率化
お話を聞いた人
「TASUKI Annotation」事業責任者
佐藤 哲太(さとう・てった)
人間と同じように学習していくAI。欠かせないのは、「教師データ」
人間と同じように判断や識別を自動で行う優れた技術であるAI(人工知能)。開発には「教師データ」が欠かせないと佐藤は言います。
「教師データ」の話に入る前に… 、AIってそもそもどんな仕組みだったか、教えてもらえますか?
「例えば、私たち人間が初めて猫を見たとき、誰かに教えてもらわないと、その動物が『猫』であることは分かりません。AIも同じなんです。学習しながら次第に認識できるようになっていく人間と同様に、『猫』がどんな姿をしているのかAIにも学習をさせる必要があります。その結果、『この写真の中で猫はどれ?』という質問に対して、これまで蓄積した知識をもとに、『この部分が猫に一番近いと思います』と応えることができるようになります」
AIはどうやって学習するのでしょうか?
「猫が猫である、とAIが学習するためには、模範回答となるデータが必要です。それをもとに、AIは猫の姿のデータを蓄積して覚えていきます。その必要なデータというのが、データにラベルを付与した『教師データ』と呼ばれる情報です。教師データを作る作業を『アノテーション』と言い、AIにとっては何の意味もない情報に、意味を与えていく作業です」
それで「教師データ」が必要なんですね。
アノテーションの対象となるデータは、画像以外にも、手書き文字といったテキストや音声データなどがあります。近年、デジタルトランスフォーメーションによりさまざまな業界で作業の自動化のニーズも高まっています。
「例えば、最近注目されているのは、手書きの文字などをスキャナーやデジタルカメラで読み取り、コンピュータが認識できる文字コードに変換するAI技術です。現状、市役所などで記入した申請書の内容をPCへ手入力している作業を自動化するのに役立ちます。他にも、製造業や医療、MaaSなど画像から不用品や異常を発見するようなAI開発も盛んに行われています。どの過程においても、模範解答を作るためのアノテーションは必須です」
膨大なアノテーション作業がAIエンジニアの大きな負担に
AI開発に欠かせないアノテーションですが、ラベルを与える作業はかなり地道で、時間がかかるそうです。通常、1枚のデータを作るのに数分〜数十分かかるため、開発に必要な数千〜数万枚のデータを作るには何十倍もの時間が必要になると佐藤は言います。
アノテーションって、そんなに大変なんですね…。
「AIエンジニアが半分以上の時間をアノテーションに費やしているとも言われています。正直、とてももったいないんです。
この動画は、車の混雑状況を自動で識別するAI開発に必要な教師データを作成する工程です。見ての通り、画像の車の部分を一つずつ手作業で枠で囲むかなり地道な作業だと思いませんか?」
「アノテーション作業は、誰かに依頼することも難しいとされています。例えば、『人』をアノテーションする場合、『見切られている人はどうするのか?』『 壁にかけられたポスターの人物は?』『ヘルメットをかぶっていたら?』 … といった細かい要件はお客さまによって異なります。アノテーションの工程では、AIの質を高めるためにもデータの統一性が重要とされていますが、外部に作業を委託した場合、作業者によって品質が異なるなど、データにノイズが多くなり、通常より倍以上のデータ量が必要になってしまうこともあります」
1枚の教師データを作る時間が約100分の1に! アノテーション代行サービスで業務を効率化
アノテーションに時間がかかってしまうことで、本来時間をかけるべき企画やモデリングといったその他の作業に時間を費やすことが難しくなってしまう課題に着目して、開発されたのが「TASUKI Annotation」。アノテーション作業を外注しやすい環境を提供することで、AIエンジニアの負担を軽減するサービスです。
「TASUKI Annotation」とは、どういうサービスなのでしょうか?
「過去のデータ分析から作業要件をレコメンドする発注システムなど、教師データ作成の要件設定アシストを使えば、アノテーション作業に重要なデータの統一性を保つことができます。作業しながらリアルタイムで検品し、修正が生じた場合でもすぐに再作業できたり、依頼者と作業者が簡単にチャットができる、認識齟齬をなくすためのコミュニケーションツールもそろっています」
品質の低下をAIで検知するため、アノテーション作業の品質を抜き打ちでスコアリングや、アノテーションの作業効率を高めるために、半自動AIアノテーションにより、作業コストを大幅にカットできることも特長の一つと佐藤は語ります。
「半自動AIアノテーションで認識してくれるのは、30種類くらいの物体です。1000枚のデータがあるとすれば、最初に作業した100枚ほどの教師データからAIが学習し、残りの900枚は自動でアノテーションすることができます。これにより、作業者は最後の仕上げに時間を注ぐことが可能になります」
AI開発企業などの依頼者はアノテーションを簡単に外注することができるようになるだけでなく、評価システムにより教師データの精度も担保される「TASUKI Annotation」。作業者と依頼者が簡単にコミュニケーションを取れるようになり、作業の効率化も期待されています。アノテーション作業に必要なデータの収集から加工作業までサポートするデータセットの販売も行っており、AI開発がスピーディーに行えます。
今後の展望を教えてください。
「AIエンジニアがアノテーションではなく、企画やモデリングといった別の作業に時間を費やせるような環境づくりに貢献するため、さらにAIエンジニアの負担を減らせるようなツールを提供していきたいと思っています。
アノテーション業務は、時間や場所に縛られず、PC操作ができれば誰でもチェレンジできる業務です。そのような特徴を生かし、就労機会を得にくい事情を持った方々に対して、新しい機会を創出し、世の中のAI発展に貢献してもらうような取り組みにも力を入れていきたいです」
ありがとうございました!
プレスリリース
高品質なAIの教師データを作成するアノテーション代行サービス「TASUKI Annotation」を提供開始(2022年6月28日 ソフトバンク株式会社)
(掲載日:2022年7月28日)
文:ソフトバンクニュース編集部
アノテーション代行サービス「TASUKI Annotation」
「TASUKI Annotation」は、ソフトバンクのAI開発経験から生まれたテクノロジーで高品質をつくるアノテーション代行サービスです。