人工知能(AI)の領域には、さまざまな専門用語があります。「よく耳にするけど、実はあまり分かっていない」というキーワードも少なくありません。今回は、そういった用語の中から「アノテーション」を取り上げ、その意味を解説します。
そもそもアノテーションとは?
アノテーションはテキストや音声、画像などあらゆる形態のデータにタグを付ける作業のことです。
機械学習アルゴリズムはタグが付いたデータを取り込むことで、パターンを認識できるようになります。そのためAI開発者は、機械学習アルゴリズムを学習させるために、タグが付いた状態のデータを用意することが必須となります。正確にタグ付けできていないデータを取り込んでも、AIは正しく学習できません。そのため、アノテーションは機械学習における、不可欠な前処理とも言えるのです。
さまざまなアノテーションの種類
一口に「アノテーション」といっても、さまざまな種類があります。代表的なものを幾つか紹介します。
意味的(セマンティック)アノテーション:
意味的アノテーションは、「人」「物」「企業名」などテキスト内のさまざまな単語に意味付けをするタグ付けです。機械学習アルゴリズムがデータを読み込めるようにするのが目的です。意味的アノテーションの活用事例には、検索エンジンの関連性の改良やチャットボットの学習などがあります。
画像・映像アノテーション:
機械学習による画像認識や映像処理は、機密情報の自動認識・漏えい防止、自動車の自動運転、電子商取引での商品リストの分類など幅広く活用されています。
これらの機械学習モデルは、画像や映像の内容を理解しなければ機能しません。データサイエンティストは、機械学習アルゴリズムに画像認識や映像処理を学習させるために、グラウンドトゥルース(現場測定データ)として利用できる、正確にタグ付けされた大量のデータを必要とします。
一般的に画像や映像のアノテーションでは、画像に描かれた架空の箱であるバウンディングボックスを使用します。機械学習モデルが、バウンディングボックスの中のものをそれぞれ異なる種類の情報だと認識できるように、タグが付けられています。
テキスト・コンテンツ分類:
テキストやコンテンツ分類も「アノテーション」に含まれるものです。これは、前もって定義されたカテゴリをフリーテキストで書かれた文書に割り当てる作業です。例えば、文書の中の文や段落を、トピックごとにタグ付けすることができます。コンテンツ分類の代表的な例としては、国内、国際、スポーツ、娯楽など主題別のカテゴリでニュース記事を分類することが挙げられます。
エンティティアノテーション:
「エンティティ」とは、データ構築の際に、人・物・場所・事象・概念・サービスといった対象物を同一のカテゴリでまとめたものです。
エンティティアノテーションは、エンティティに基づいてAIが文章を読めるように、非構造化文章に情報をタグ付けするプロセスのことです。
例えば、弊社が提供している「GengoAI」の裏側をお話すると、学習データを作成するために、2万2000人以上のクラウドワーカーが手作業でタグ付けをしています。対象となる非構造化テキスト(記事など)の中で、どれが人の名前で、どの単語が組織の名前なのか、どの単語が場所の名前でどれが会社の名前なのか、単語一つひとつにタグを付けています。
エンティティアノテーションはさまざまな種類があります。多くのソリューションではこれらのうち複数がシステムに組み込まれているので、データサイエンティストは用途に応じて、適した方法を用いてデータを操作することができます。全てをここで紹介することはできませんが、以下の代表例だけでも、その多様性をお分かりいただけると思います。