【no.225】ザトウクジラの生態把握のためAIでクジラの「声」を聴くGoogleの取り組みが進行中

ザトウクジラの生態把握のためAIでクジラの「声」を聴くGoogleの取り組みが進行中

YouTubeを字幕付きで再生していると「拍手」や「歓声」といったキャプションが表示されることに気付くことも多いはず。これは、人間のスタッフが人力で入力しているのではなく、ムービーに含まれる音声を畳み込みニューラルネットワークを使ったAIに解析させることで何の音なのかを判断させているものです。Googleが開発を進めているAIは音声ではない環境音の中身を判断できるようになってきているのですが、今この技術は、ザトウクジラなど自然動物の保護のためにも役立てられるようになっています。

「AIを社会のために」というターゲットを掲げるGoogleのAI関連プログラム「AI for Social Good」の一環としてGoogleは、アメリカ海洋大気庁(NOAA)の一機関である「Pacific Islands Fisheries Science Center (PIFSC：太平洋諸島漁業科学センター)」とのパートナー関係を結び、ザトウクジラの生態把握のために畳み込みニューラルネットワークを利用する取り組みを進めています。

NOAAは太平洋の12カ所にパッシブ音響モニタリング装置(ハイドロフォン)を設置して、海中の音を記録しています。ハイドロフォンは、太平洋のサイパンやハワイのコナなど、特定のザトウクジラの繁殖地および越冬地となる地点に設置されており、繁殖イベントなどの際に交わされるザトウクジラの「声」を収録するようになっています。

音声データは、高サンプリング周波数で音声を高品質に記録するHARP(高周波音響記録パッケージ)と呼ばれる装置で記録されています。ザトウクジラの声の主な要素は100Hzから2kHzに集中しているため、解析にあたってはサンプリング周波数を200kHzから10kHzにまで落とす処理が行われたとのこと。しかしそれでもなお、データの総容量は9.2テラバイト(TB)にも達したそうです。

音声データを周波数の高さに分けて表示するスペクトログラムに変換すると、データの中にはザトウクジラの音声(左)に加えて正体不明のノイズ(中)や、HARPのHDDから発されるノイズ(右)などが含まれていたとのこと。解析の際には、画像クラシフィケーション用の畳み込みニューラルネットワークであるResNet-50を用い、各種ノイズを除去して目的のザトウクジラの音声を抜き出す処理が行われます。

音の周波数が一定だった場合、その音はザトウクジラのものではなく、何らかの機械や近くを通る船などから出るノイズであると推測されます。Googleは、元の音声(下図上部)に対してper-channel energy normalization(PCEN)と呼ばれる手法を用いることでノイズ除去処理を行い、ザトウクジラの声だけを高精度に抜き出しすことに成功したとのこと(下図下部)。

PCENに並行して、より長い時間軸のデータを解析することでザトウクジラの音声をより正確に抽出することにも成功しているとのこと。これらの手法を用いることで、Googleは音声データの中にザトウクジラの声が含まれているかどうかを90％の確率で判定することが可能になったそうです。複数のコーパス(データセット)を用い、それぞれのHARPで記録されたデータの位置関係をもとにザトウクジラの位置を高精度で予測することが可能になったとのこと。

このようにして、チームではザトウクジラがどの時期にどのエリアで多く活動しているのかを精細に把握することを可能にしました。以下のグラフはその例の一つで、縦軸が年、横軸が月で、円の大きさが検出回数、青がコナでの検知、赤がサイパンでの検知を示しています。円の大きさは一定のパターンを示しているようにも見え、1年のどの時期にどのエリアで多くザトウクジラの音声を収録していたのかが示されています。

15年分に及ぶ膨大なデータを人力で解析することは事実上不可能といえ、その処理を畳み込みニューラルネットワークを使ったAIが担うことで自然動物の生態把握の手助けをできるようになるという例が示されました。今後も、AIを使ったビッグデータの解析とデータマイニングはさらに加速していくことが予想されます。

音声認識が発達していき、動物の声が判別できるようになっていくというのは
興味深い内容ですね。。次回の更新も楽しみにしていただけますと幸いです！