【no.347】オンデヴァイスのAIは、音声認識のゲームチェンジャーになるか

オンデヴァイスのAIは、音声認識のゲームチェンジャーになるか

グーグルがこのほど、音声認識をスマートフォンなどのデヴァイス側で実行できる技術を開発した。ソフトウェアを25分の1に圧縮したことで、これまでサーヴァーで実行していたプログラムをデヴァイスに搭載できるようになったのだ。データをクラウドに送る必要がないため、通信が不要で処理速度が速いこの技術は、音声認識の利便性を飛躍的に高めるゲームチェンジャーになる可能性を秘めている。

TEXT BY TOM SIMONITE
TRANSLATION BY CHIHIRO OKA

WIRED(US)

Assistant

BENSIB/GETTY IMAGES

人工知能AI)による音声アシスタントに、毎日のように話しかけている人は多いだろう。でも結果はいつも思い通りというわけにはいかず、イライラさせられることもあるはずだ。

こうしたなか、グーグルが音声認識の精度を著しく向上させる新技術を明らかにした。音声認識ソフトウェアのサイズを25分の1に圧縮できたことで、音声操作などが飛躍的に便利になるという。

おかげで、これまでクラウドのサーヴァー側で動かしていたプログラムを、スマートフォンにインストールできるようになる。つまり、処理速度が格段に速くなるわけだ。これを最高経営責任者(CEO)のスンダー・ピチャイは「大きなできごと」だと説明した。

多くの処理がデヴァイス側で完結

開発者カンファレンス「Google I/O」の基調講演で披露されたデモでは、話した瞬間にデヴァイスがその内容を理解していく様子が示された。音声データをクラウドに送信する必要がないため反応が非常に速く、これなら確かにスマートフォンの操作方法が根本から変わる可能性もあるかもしれないと思わせる。

実際、グーグルのAIアシスタントは、アップルの「Siri」のような競争相手よりはるかに優れた能力を発揮した。シニアプログラムマネジャーのメギー・ホリンガーが、音声コマンドで何ができるかをひとつひとつ紹介していく。すべてのタスクで、競合他社の音声アシスタントより処理が速かった。しかも、毎回「OK、Google」というウェイクワードを言う必要がないという。

ホリンガーは、2回のタップと3つの短いフレーズだけで旅行の写真を友達に送ることに成功した。彼女が「イエローストーン(国立公園)の写真を見せて。動物の写っているやつ。ジャスティンに送って」と言うと、数秒もしないうちに「Google Photo」でバイソンを撮った写真が表示される。タップとスワイプだけでこの写真を探し出すのは、かなり骨が折れるだろう。

グーグルのAI部門を率いるジェフ・ディーンは、音声認識をデヴァイス側で完全に処理できるようになったことで「スマートフォンの使い方が変わる」とツイートしている。これまではサーヴァーでの処理とデヴァイスでの処理が併用されていたが、今後は多くの場合でデヴァイアス上ですべてが完結するようになる。

デヴァイスとの会話という体験が変わる

消費者テクノロジーの世界では、新しい技術が生活に必須なものへと進化するためには、処理速度の向上とバグをなくすことが重要課題とされる。ヴィデオチャットやマルチプレイのオンライゲームが当たり前となる上で、高性能パソコンとブローバンド接続が果たした役割を考えればわかるだろう。

デヴァイスだけで完結する音声認識システムについては、まだ提供が始まったわけではないし、当初はハイエンドモデルでしか利用できない。ただ、この新しいテクノロジーにより、デヴァイスとの会話という体験が完全に変わる可能性はある。

グーグルの音声アシスタントは2012年に始まったAI研究の成果のひとつであり、なかでも深層学習と呼ばれる手法が確立されたことで、エラー率は25パーセントも低下した。しかし、当時はまだデータはサーヴァー上でしか処理できなかった。クラウドに送ることで時間的な制約がかかるだけでなく、ネットワークエラーによるバグも生じる。

グーグルはこの問題を解決するため、深層学習のソフトウェアの圧縮に取り組んできた。そして、音声認識モデルにおいてはマイルストーンに到達したというわけだ。サーヴァーで動かしている音声認識プログラムは全体で2GBもあり、スマートフォン側で走らせるのはほぼ不可能だ。これに対し、最新版は同じパフォーマンスをわずか80MBで実現している。サイズにすると実に25分の1だ。

「ゲームチェンジャー」になる技術

クラウドベースより動作性が明らかによくなれば、ユーザーが音声コマンドやAIアシスタントを利用する頻度は増えるだろう。また、他社が同様の技術を開発して追いついてくるまでは、グーグルが市場を主導できるかもしれない。なお、アップルは2017年に「オフラインで使える個人アシスタント」の特許を出願している。

市場調査会社ガートナーのワーナー・ガーツは、オンデヴァイスの音声認識は「ゲームチェンジャー」であり、既存技術を利用したシステムを採用するアップルやアマゾンにとっては大きな脅威となるだろうと説明する。ガーツは「データ処理の遅延はこれまで常に大きな問題でした」と言う。たいていの人はこの遅延(レイテンシー)を感じたことがあるはずだ。

グーグルは、この新技術を別のアプリケーションにも活用している。端末で再生される音声の字幕化機能「Live Caption」だ。この機能では、友人から送られてきた動画からポッドキャストまで、どんなメディアでもリアルタイムで自動的に字幕を付けられる。デヴァイス側で処理が完結するため、機内モードでも使うこともできるという。

プライヴァシーの強化にもつながる取り組み

一方、グーグルは現在、「Euphonia」という研究プロジェクトに取り組んでいる。例えば、脳卒中などで発話機能に問題を抱える人が音声認識を使えるようにする研究で、対象者に音声サンプルの提供を呼びかけている。

プロダクトマネージャーのジュリー・キャティオウは、音声認識のデータ処理がオンデヴァイスでできるようになればデヴァイスの所有者に合わせたパーソナライゼーションが可能になり、汎用化が進むだろうと説明する。

データ処理を端末側で行うことは、プライヴァシーの強化にもつながる。字幕化したテキストデータは強制的にグーグルに送信されることもあるようだが、今年の開発者カンファレンスのメインテーマが「プライヴァシー保護」であったことに変わりはない。

ピチャイもほかの経営幹部も、個人情報の大量収集を巡る悪評をなんとかしようと躍起になっていた。具体的には、プライヴァシー設定の再編や、Googleアカウントにログインした状態でも検索履歴を残さないシークレットモードを一般検索やGoogleマップでも提供する方針が明らかにされている。