フォーム読み込み中
IBM CloudのWatsonサービス群の一つである、Discoveryのコンテンツ・マイニング(Content Mining)機能でUFOの目撃情報を分析します。
Discoveryはクラウド・ベースの全文検索エンジンのアプリケーションです(Apache solar、Elasticsearchを利用されている方もいるかもしれません)。検索の仕組みに加えて、自然言語処理(NLP)と機械学習を活用する機能も統合され、コグニティブな探索ができるようになっています。
本記事では、文書を登録して検索する、検索エンジンとしての主機能ではなく、Discoveryのコンテンツ・マイニングという機能に焦点をあてて紹介したいと思います。テキストも解析できるコグニティブなBI(Business intelligence)ツールと表現するとまずは外観がつかめるでしょうか。
Discoveryには、以下のプランがあります。
コンテンツ・マイニング機能はEnterpriseプラン以上から利用できます。
分析データとして、世界各地で目撃されたUFOの情報を選びました。このデータをDiscoveryのコンテンツ・マイニング機能に投入し分析します。
私が所属する企業、また個人としてUFOの存在について意見を述べる・議論することが目的ではありません。クリエイティブ・コモンズライセンスのライセンス化で公開されているデータであり、分析用のサンプルとして利用できる点、具体的な特定の組織や商品の分析からは距離を置き、サービスの機能を説明できる点、そして何よりキャッチーでおもしろそうな分析になりそうという好奇の期待から選んでいます。
UFOの目撃情報のデータセット
https://www.kaggle.com/datasets/camnugent/ufo-sightings-around-the-world
(主要な各列の抜粋)
CSV形式で構造化されています。ExcelやGoogle Sheetsなどのスプレッドシートでも分析できるかもしれないと思われるかもしれませんが、以下あたりの観点で難しさが出てきます。
UFOデータを利用しながら、Discoveryのコンテンツ・マイニングの特徴的な機能を紹介していきます。
特徴1:CSVのアップロードのみでファセット(列のカテゴリ)ごとの一覧を表示
CSVをアップロードするだけでファセットごとの集計結果を閲覧できます。型も自動判定されます。型違いはエラーとなり除外されます。
これだけでも大まかな特徴が見えてきます。
任意のファセットを選び、また自由に検索単語を入力して候補を絞っていくこともできます。
例えば、UFOが目撃されたcountry(国)からusを、そこからshape(形)にovalを選び、ドリルダウンしていくような導線です。掘り下げていく様子もグラフィカルに表示されます。
特徴2:ペア(2軸)の関係性を表示
UFOが目撃されたstate(州)を横軸に、shape(形)を縦軸に関係性を表示させた例です。2軸で描画しただけではありません。特徴1を思い出してください。任意の候補絞りをしたのちに、stateとshapeの関係性を表示していることに気づいていただけると便利さが実感いただけると思います。
州によってUFOの形に差異があるようです。各セルをクリックするとその内訳を確認することができます。
特徴3-1:辞書登録
元のデータにはなかった、UFOのcolor(色)というファセットで分析をしたいと思ったとします。その場合は、抜き出したい色の辞書をテキストで用意して登録します。その辞書をフリーコメントに適用すれば、colorファセットが出来上がります。元のCSVデータにcolor列が挿入されたようなイメージです。
正規表現による抽出も可能です。
特徴3-2:機械学習による自然言語分類
辞書機能を使えば、単語抽出によるファセット作成ができました。
データ中には存在しないキーワードによる分類をしたい場合はどうすればよいでしょうか。その場合は、機械学習による自然言語分類が有効です。学習データを用意し、分類モデルを作り、そのモデルを使って分類予測をすることができるようになります。
例えば、UFOの目撃情報がsingle(1機)だったか、multiple(複数機)だったかの2値分類をしたいとします。その場合の学習データはこのような感じです。文章に対して、カンマ(,)区切りでラベルを付与します。多値分類もできます。
学習データはDiscoveryのClassifierの画面からアップロードするだけです。学習の完了後に、モデルの性能値も表示されます。学習データの多寡、改善検討もそこから判断すればよいでしょうか。
学習モデルをフリーコメントへ適用してみました。
全てのデータにラベルを付与しているわけではないことを強調します。作成したモデルによる自動予測がされています。
特徴4:時系列データから傾向を分析
日時のデータがあれば、時間変化による対象の変化を確認することができます。
任意のファセットでトレンド分析を実施し、予想される平均値からの乖離がある時点を表示させています(赤い方が離れている)。
最下段のTinley Park(ティンリー パーク )という町では、ある時期にUFOの目撃情報が一気に増えています。何があったのでしょうか。赤く表示されている箇所をクリックすると詳細を覗けます。
UFOが、いつ、どこに、どういった形、色、機数で出現するか、またその時の傾向、関係性まで理解でき、興味深い洞察を得ることができました。ただし、分析結果の詳細は秘密にしておきます(まじめに考察を述べることがはばかられただけかもしれません)。
紹介した機能で何ができたのかについて、一般論的として振り返ってみましょう。
特徴1:CSVのアップロードのみでファセット(列のカテゴリ)ごとの一覧を表示
正規化されているデータであろうとなかろうと、大量のデータがシートやテーブルにあるだけでは、何を知りたいかの糸口が掴みにくいはずです。ファセットごとに、各データの多少を視認することで焦点を絞っていく起点が得られます。
特徴2:ペア(2軸)の関係性を表示
2つのファセットを比較することで関係性が分かります。ただし、相関関係を因果関係と誤解することも多いため丁寧な調査が必要です。関係性があるようでも、ただの偶然、交絡因子の存在、逆の因果関係、が因果な関係がありそうな見せ方を生んでいる場合もあります。ファセットどうしを変える操作は容易です。因果関係であると断定するための、慎重な関係性の比較ができます。
特徴3-1:辞書登録
特徴3-2:機械学習による自然言語分類
この2つは、非構造化データに埋もれている特性を浮き上がらせる機能であると言えます。データは常に整理された状態で保持されているとは限りません。また収集時には意識していなかった、見る予定がなかったことで未整理な状態になっていることもあります。そこから新規に観点の軸をつくりだすことができます。
特徴4:時系列データから傾向を分析
時間の変化に着目した、ファセット内のグループ集計による数値データの露出と言い換えられます。
トレンドの急激な変化箇所等は色の濃淡でビジュアル表現されています。異常な傾向も一目でとらえられます。
特徴的な機能を中心に見ていただきましたが、紹介しきれていない機能もまだまだあります。これ以上は本記事で機能を並べ立てるより、マウス操作だけで体験できるDiscovery コンテンツマイニング サービスを直接体験いただくのがよいでしょう。
実用的で相性が良さそうな適用先としては、アンケート結果の分析などがあるでしょう。消費者のポジティブ、ネガティブの傾向の把握(文章を形態素解析して単語単位でファセット化する機能も備えています)、またそのセンチメントの分布も、見たい側面からフォーカスを当てて視認できます。
他にも、機械系のメンテナンス業務にも使っていただけるかもしれません。点検、修理業務において整備士の方が見つけた問題、その対処に本サービスを適用することで、以下のようなメリットが得られるでしょう。
海外のUFOのデータを使いましたが、日本語にも対応しています。正規化されたデータに加え、フリーテキストも同じサービス上で、任意の粒度でカテゴライズして整理できる道具はなかなか見かけたことがありません。
有益な洞察を得るためには、正確で恣意的な操作のない、価値のある情報を内在したデータを、手元に用意することが不可欠です。ただしそれだけでは不十分です。人が負荷を感じずにビジュアル化できる道具を利用できるかどうかも必要なピースです。その道具の一つの候補にIBMのWatson Discoveryはいかがでしょうか。
条件に該当するページがございません