【no.357】ロボットに触覚を与える「AI手袋」 MITが開発

ロボットに触覚を与える「AI手袋」 MITが開発

MITコンピュータ科学・人工知能研究所が、映像データから学習する「AI手袋システム」を開発した。「STAG」(Scalable Tactile Glove)と名付けられており、実際の手と同様に、さまざまな刺激を検出することができると説明されている。

研究をリードするCSAILの研究員、Subramanian Sundaram氏はこれまで、人間と同じように皿を拭くことができるなど、ロボットに鋭敏な触覚機能を備わせる研究をしてきた人物だ。AI手袋の研究成果をさらに向上させれば、「完璧な触覚を持ったロボットアーム」を製作できるようになっていくはずだと今後の見通しを語る。

研究チームは、AI手袋を開発するために伸縮性のある約15ドルの手袋を用意。そこに、対象やモノゴトを検出するため548個のセンサーを取り付けた。人の手には、約1万7000本の機械受容器神経線維があり、外部から加わるさまざまな物理的刺激を触感信号に変換している。その機能を、大量のセンサーを使って代替しようという試みだ。

courtesy of MIT

なお、Sundaram氏によれば、既存の研究過程においてもロボットアームにセンサーを取り付けたケースがあったが、その数は50個ほどにとどまっていたという。今回は約10倍の量のセンサーを搭載することになった。しかも、生産コストを10ドル台で調整できるのも特徴のひとつとされている。

今回開発されたAI手袋は単にセンサーが多いだけではなく、映像から得られた情報を学習することでスマートになっていく。人間は視覚から得た情報と触覚を連動させ、対象の状態を覚えていくが、同じプロセスを再現しようということになろう。現時点で、空き缶、はさみ、テニスボール、スプーン、ペン、マグカップなど26個のモノと関連した、13万5000フレームの触覚データセットを識別するまで能力が拡充された説明されている。

Sundaram氏は、「ロボットがこのAI手袋を着用すれば、人間のようにモノゴトを感知し対応することができる」とする。対象物を動かす、掴み上げる、下ろす、意図的に落とすなどのアクションがそれにあたる。

既存の産業用ロボットや協働ロボットでは、無造作に置かれた形が異なる物質を自由にピックアップ、もしくは分別するタスクを処理することが難しいとされてきた。今後、人間のような細かい手作業を再現することがひとつの課題とされている。同分野では、すでにディープラーニングを使った学習などさまざまなアプローチで研究が進んでいる。大量の細かいセンサーと機械学習を組み合させた、AI手袋の技術革新にも期待したい。

【no.356】大丈夫? AIは、ただの「落書き」に呆気なくダマされる

大丈夫? AIは、ただの「落書き」に呆気なくダマされる

映画『ターミネーター』シリーズには、どんなに追い払おうとしても追いかけてくる、恐怖のロボットが登場する。ターゲットとなる人物の顔を認識し、どこに逃げ隠れしようが追跡し、その人物の命を奪おうとする――これはさすがに極端な例だが、人がAI(人工知能)に不安を抱くとき、こんなイメージを抱くのではないだろうか。絶対にミスを犯すことのない、神(あるいは悪魔)のような存在というわけだ。

ところがいま、むしろAIの方が簡単に撃退されてしまうのでないかという懸念が出てきている。しかもそのために、強力な武器も溶鉱炉も必要ない。ステッカーがあれば十分なのである。

2017年7月、ワシントン大学など4つの研究機関の研究者たちが、とある論文を発表した。その論文で示されていたのは、ごく簡単な手法によって、ロボットカー(自動運転車)に搭載されたAIが騙されてしまう可能性である。

彼らがテストした「騙し」のテクニックのひとつが、実際の道路標識に対して、落書きを模してステッカーを貼るというものだ。

上の画像は実際の論文から引用したものだが、実際に研究者たちが作成し、ロボットカーのAIに読み取らせた一時停止標識である。白と黒の四角形に見えるのは、何の変哲もないステッカーを貼り付けたもので、何か特殊な加工がしてあるわけではない。

しかし人間の目で見れば何の違和感もない、そして人間であれば何の苦労もせず「これは一時停止標識だ」と認識できるこの画像、実はロボットカーの「目」にはまったく違うものに映るよう計算されてつくられている。実際に実験を行ってみたところ、ロボットカーはこの標識を「制限速度45マイル(約72キロメートル)」と勘違いしたそうだ。

なぜロボットカーに搭載されたAIは、こんな簡単なトリックに騙されてしまったのだろうか。

この実験で騙す対象となったAIは、ディープラーニングという手法で構築されたものだ。簡単に言うと、ディープラーニングではAIに大量の学習用データを与え、AIはそれをもとに独自の「思考回路」を形成する。そしてその思考回路を使って、現実の世界から与えられるデータを処理し、適切な判断をしていくわけだ。

しかし人間の目にも錯覚という現象があるように、構築されたAIの思考回路も、与えられたデータから誤った判断をしてしまう場合がある。そうした誤った判断を引き出すようなデータを設計して、AIに与えることによって、意図的にミスを引き出すことができるのだ。そしてこのような、意図的にAIを混乱させる手法を、「敵対的攻撃(Adversarial Attack)」と呼ぶようになっている。

【no.355】ピザ界でもAIは大活躍。ドミノ・ピザが人工知能で出来栄えを鑑定

ピザ界でもAIは大活躍。ドミノ・ピザが人工知能で出来栄えを鑑定

人工知能が完璧なピッツァを目指します。

出前で届けてもらったピッツァが別モノだったり、具が足りなかったり、配置に偏りがあった経験ってありますか? あんまり聞いたことがないかもしれませんが、オーストラリアだとそんなこと、無きにしもあらずらしいんですよね。

そこでドミノ・ピザが開発したのが、AIの力を借りて出来栄えをスキャンで鑑定する「DOMピッツァ・チェッカー」。まずはどんなモノなのか、プロモーション映像でチェックしてみてください

 

Video: Domino’s Australia/YouTube

なるほど。ちゃんと注文通りに、しかも綺麗に焼けたかどうかをAIがデータベースと照らし合わせるってことなんですね。もし出来ていなかったら、作り直してくれるそうです。

designboomいわく、このマシーンは2017年に予告されていたのだそうです。ですがやっと完成し、これからオーストラリアとニュージーランドの店舗に配備されるとのこと。ゆくゆくは、スキャンしたほかほかのピッツァ写真を、配達先のお客さんに送信することも計画しているとか。きっとそれを、お客さんがSNSに投稿するんでしょうね。

まさかこんな形でピッツァに未来がくるとは思いませんでした。

【no.352】中国でパンダの「AI顔認証技術」を開発。一般向けにアプリも準備

中国でパンダの「AI顔認証技術」を開発。一般向けにアプリも準備

パンダ赤ちゃん

どれも同じに見えるパンダをAIで識別する技術が開発された。

Reuters

パンダの繁殖や保護を担う成都ジャイアントパンダ繁殖研究基地は今月、シンガポールの南洋理工大学、四川師範大学と共同で、パンダの画像や動画からAI顔認識技術を用いて個体識別する技術を開発したと発表した。

顔認証技術

成都ジャイアントパンダ繁殖研究基地

パンダと飼育員

パンダの個体識別は、研究者だけでなく飼育係のニーズも高いという。

Reuters

同基地によると、中国ではこれまで、4回にわたって専門家による野生パンダ大規模調査を実施し、パンダが約1800頭生息しているなどの基本状況を把握。多数の資料も収集した。

現在は捕獲や人の目のよる識別、毛髪や糞便からのDNA収集を通じてパンダの調査を行っているが、野生パンダは山奥の広い面積に生息しているため、人間による追跡や観測は効率が悪く、かつ危険を伴うという問題がある。

RTX1TGLO

Reuters

兄弟パンダ

同じにしか見えない2頭も識別可能に。

shutterstock.com

パンダの群れの様子や分布状況、年齢や性別、出産、死亡をより正確に把握するために、同基地は大学と協力し、2017年に画像によるパンダの個体識別技術開発に着手。2年かけて12万点の画像と数万点の動画をデータベース化し、映っているパンダにタグ付けを行うなどして、画像から個体を自動識別する技術を確立した。

同技術によって、パンダの生息区域内にカメラを設置することで、パンダの個体の状況をより正確に把握できるようになる。研究チームは今後、ビッグデータ分析を通じて、健康観察や群れの調査のより効率的な方法を開発するほか、近く、パンダの顔認識アプリも発表し、一般向けに提供する予定。

【no.351】1枚の写真が表情豊かにしゃべりだす。サムスンのAIが作る驚きのディープ・フェイク技術

1枚の写真が表情豊かにしゃべりだす。サムスンのAIが作る驚きのディープ・フェイク技術

1枚の写真が表情豊かにしゃべりだす。サムスンのAIが作る驚きのディープ・フェイク技術
Image: Egor Zakharov/YouTube

単なる口パクではなく、超リアルに動きます。

今の人工知能技術は、人の声を解析して任意のセリフをオバマ元大統領に喋らせたり、可愛い赤ちゃんの顔をイーロン・マスクにすげ替え不気味の谷のズンドコに突き落としたりと、思い付くことは何でも簡単に出来てしまう時代になりました。

たとえば教育目的で美術館がサルヴァドール・ダリを復活させたり、ネットやアプリ内で動くアバターを生成などという無害で素晴らしいディープ・フェイクもありますが……悪意があれば偽ポルノ映像を作って誰かに嫌がらせをすることも可能だったりして、光と闇が強い技術かと思われます。

ディープ・フェイクをお手軽に作れるという研究

この度、モスクワにあるSamsung(サムスン)の AIセンターに勤める科学者たちと、スコルコボ研究所がディープ・フェイクに関する報告書「Few-Shot Adversarial Learning of Realistic Neural Talking Head Models」を発表しました。これはたった数枚の写真(または絵画)に写った顔を、仮想的に喋らせるというものです。

科学者たちは昨年、機械学習を利用して超絶リアルな誰かの映像を生成するなど、何通りもの新しい方法でディープ・フェイクを生み出してきました。ですがまだ、そうした映像を作るために重要な前提条件がひとつあります。それはAIに学習させるべく、フェイク映像を生成したい人物の資料を、リアルにしたければしたいほど大量に集めないといけない、ということなんです。

学習素材を集める苦労

もちろん、これはもしオープンソースの画像収集ソフトや、モデルにしたい人物がネット上に充分な量の写真や映像を投稿していれば、大量の資料を集めることは不可能ではありません。しかしそれらはまだお手軽な作業ではありませんし、何より偽ポルノを作るときなどは、被害者になるかもしれない人たちが、どれほど自らが悪用可能なデータをシェアしているか注意深くなるようになりました。

ですがこの新システムは、結構な時間を費やすことが必須だった、資料集めの作業から開放してくれるのです。

190527_fakephoto2
Image: Egor Zakharov/YouTube

少ない資料と短時間で生成する

報告書にて、科学者たちはこのシステムが「限られた時間内」「一握りの写真からおしゃべりする頭」を生み出せる、と書いています。もし誰かがディープ・フェイクを作る場合、モデルになる人の大量の写真(トレーニング用データ・セット)をディープ・ニューラル・ネットワークに入力する必要があります。ですがこの科学者たちは、彼らのシステムが必要とするのは少しの写真でそんなに時間を要さず、フェイク映像を吐き出せる、というのです。

また研究結果には、「完璧なリアリズム」を作るため32枚の画像で訓練した、とあります。これは従来よりとても少ない上、今のネットでは簡単に集められる枚数ですよね。モデルにしたい人のFacebookページに行けば、それくらいの枚数を見つけるのは難しくないってことは、簡単に想像できちゃいます。さらに重要なのは、この技術は急速なスピードで開発が行なわれているってことだったりします。

こちらの映像では、たった8枚の画像から重点となる顔のパーツを見つけ、かなり自然なフェイク映像が出来上がった様子などが見られます。

Video: Egor Zakharov/YouTube

1枚からでも生成は可能ですが、8枚、32枚と資料が多いほどより良い映像が出来ることも比較してますね。16枚の自撮り写真からも自分のアバターを生成したり、ダリやアインシュタイン、マリリン・モンローといった実在した人物の写真だけでなく、イワン・クラムスコイの『見知らぬ女』やダ・ヴィンチの『モナ・リザ』といった絵画までもが生き生きと、表情豊かに動いていました。

1枚の静止画ですら、このシステムが命を吹き込めるのは凄いですよね。これらの例には、簡単にフェイクだと断言するのが難しいものもありました。

190527_fakephoto3
Image: Egor Zakharov/YouTube

応用が期待できる

報告書ではまた、科学者たちはこの種の技術の先には「ビデオ会議やマルチプレイヤー用ゲーム、それに特殊効果を扱う業界などでの遠隔配信にて実用的」かもしれない、と記しています。

テック企業がアニメ化したアバターやバーチャル・リアリティーへ移行するように、この技術はより個人的で現実的なヴィジュアルへと向かう、次の段階への自然な一歩のように感じられます。それに映像業界でも、たとえば亡くなった役者の復元ための大幅な時間短縮ができるようになるかもしれません。

一例として、映画『ローグ・ワン/スター・ウォーズ・ストーリー』では、かつてターキン総督を演じた故ピーター・カッシングと、若き日のレイア姫を再現して話題になったこともありましたが、この技術を利用すれば、そのVFXが時短できるわけです。

使い方は良心に委ねられる

しかしながら、フェイク映像として悪用のモデルにされた被害者に与える本当の脅威に目を向けず、ただこの技術を褒め称えるのは無責任かと思われます。実際にディープ・フェイクが世間に認知され始めた頃、ネット上の女性にとってこの技術がどれほど牙を剥くのかは、目と鼻の先といわれていたくらい。ネットには、こういう技術を悪用しようという輩が必ずいる、という厳しい現実が待っています。

ですが技術者たちは、日々もっと簡単に、もっと効果的に、と向上を目指すものなのです。何事にも当てはまりますが、使い方はその人の良心次第ですね。

【no.350】メルカリのAI経営術 サービス磨き不正防ぐ

メルカリのAI経営術 サービス磨き不正防ぐ

フリマアプリ最大手のメルカリがテクノロジー活用に力を注いでいる。マイクロサービスを全面採用し、継続的なサービスの強化と変化に強い組織づくりを目指す。AI(人工知能)の活用も強化し、利用者向け機能からシステム開発、従業員の日常業務まで効率を引き上げる。不正利用を防ぎ、信頼されるテックカンパニーに成長できるか。

図 メルカリの月間利用者数と流通総額の推移
利用者数は4年前の15倍に
[画像のクリックで拡大表示]

売上高は3年間で3倍に増え、月間利用者数(MAU)は4年前の15倍、従業員数は2年前の3倍に――。メルカリの事業と組織が急拡大している。2018年6月に東証マザーズに上場、2019年2月にはスマホ決済サービス「メルペイ」を始めた。2014年に進出した米国事業のアクセルも踏み込む。サービス強化に加え、2019年は認知度やブランドイメージの向上へ投資を増やす。

急成長する一方、経営幹部や社員の中には先行きへの危機感が広がる。事業強化や意思決定のスピード、サービスの使い勝手や品質――。サービスを動かすシステムの構造が複雑になり社員数が増え続ける中、これまでの勢いを維持できるのか。

「今のままエンジニア数が1000人を超えたらメルカリのアーキテクチャーは崩壊しかねない」。2017年初夏、CTO(最高技術責任者)を務める名村卓執行役員は山田進太郎会長兼CEO(最高経営責任者)と同社の先行きを議論した。当時のエンジニア数は100~120人。山田会長は1000人を超えるのは2020年ごろと見ていた。2018年10月時点のエンジニア数は350人である。

組織としての停滞を回避し「世界的なマーケットプレイス」になる目標を達成するため、メルカリはテクノロジーに活路を見いだす。目指すは「日本を代表するテックカンパニー」だ。2018年6月、マザーズ上場の記者会見で山田会長はこう宣言した。GAFA(グーグル、アップル、フェイスブック、アマゾン・ドット・コム)が目標であり想定するライバルだ。

製品やサービスの水準でGAFAを目指すだけではない。浜田優貴取締役CPO(最高プロダクト責任者)は「エンジニアのスキルでも差異化し、システム開発などに関する新たな技術を生みだせる企業を目指す」と意気込む。

【no.349】AIが電話予約する「Google Duplex」、通話の25%は人間によるもの?

AIが電話予約する「Google Duplex」、通話の25%は人間によるもの?

Googleが2018年に「Duplex」を発表したとき、人間そっくりに話す人工知能(AI)を利用して予約を取るためのシステムだとうたっていた。

Google Assistant
Googleアシスタントがユーザーの代わりに電話でレストランや美容院の予約を取る
提供:James Martin/CNET

だが、Duplexによる通話のおよそ25%はロボットではなく実際は人間が開始していることが分かったという。Googleが米国時間5月22日にそう述べたと報じられている。また、およそ15%はAIソフトウェアが通話した後に人間が引き継いで予約を完了しているという。The New York Times(NYT)は先にこの数字について報じていた。

このサービスが正常に機能する場合、人間のように話すボットが同社のデジタルアシスタントソフトウェア「Googleアシスタント」のユーザーのためにレストランや美容院の予約を取る。Duplexは「uh」(ええと)や「um」(うーん)といった言いよどみを用いたり、特定の語を間延びさせたり、声を上げ下げしたりして人間のように話す。

Googleの最高経営責任者(CEO)であるSundar Pichai氏が2018年5月にDuplexのデモを披露したときから、同社はAIの倫理をめぐる議論に巻き込まれることになった。このソフトウェアは、会話の相手がコンピュータではなく人間かもしれないと人間に思い違いをさせる可能性があるのではないかと懸念する声があった。Googleはその後、人々に話し相手がロボットだと伝える機能を構築すると述べた。

だがあらゆる議論にもかかわらず、Duplexの実際の成功率は、このサービスが依然として大いに人間に依存していることを示している。Googleはロボットの代わりに人間に通話させることを決定する際、複数の兆候を考慮するとNYTは報じている。例えば、レストランが予約を受け付けているかどうかが定かではない場合、Duplexは人間を用いる可能性があるという。

その一方で、GoogleはDuplexを拡張し、レストラン以外の予約にも対応させている。同社は2019年5月、Duplexのサービスを拡張した「Duplex on the web」を発表した。Duplex on the webは、「Googleカレンダー」や「Gmail」の情報を利用して、モバイルウエブ上の予約ページでユーザーの個人情報のフォームへの入力を自動的に行う。レンタカーや映画のチケットの予約に利用できる。

【no.348】夢見る「AI人材」じゃいられない

夢見る「AI人材」じゃいられない

「『など』をむやみに使うな、こうだとはっきり書け」。1985年に記者として仕事を始めた当初、先輩から何度か注意された。

例えば「来年60歳になる谷島はBABYMETALなどを好んで聴いている」と書くのはよろしくない。「など」を削るか、「BABYMETALや相川七瀬や黒木渚を好んで聴いている。ももいろクローバーZの最新アルバムも買った」と書いたほうがよい。

2019年5月18日付の日本経済新聞に載った「AI人材教育 国が認定」という見出しの記事では「AIなど」が7回繰り返されていた。

記事を読むと「AIやロボットなどの技術革新」あるいは「AIや数理、データサイエンスの分野」「AIやデータ分析」と書かれている。つまり「AIなど」の「など」にはロボット、数理、データサイエンス、データ分析が入り、さらにそれらを使ったイノベーションも含む。

AIは人工知能のことだからロボットは親戚と言える。データサイエンスやデータ分析はAIとは違う話のような気がするが遠縁としておく。昨今のAIの主役は機械学習であり、AIに既存のデータを大量に読ませ、勉強させ、新しいデータに対して判断させることになる。

以上のような「AIなど」の担い手が足りない。そこで政府の教育再生実行会議が「AIなど先端技術分野の人材育成の強化策を盛り込んだ第11次提言をまとめ、安倍晋三首相に提出した」。これが日経新聞の5月18日付記事の内容であった。

「AIなど」にすれば何でもあり

「AIなど」を繰り返さざるを得なかったのはAIの定義が曖昧だからである。2019年4月12日付本欄で紹介した通り、内閣府の統合イノベーション戦略推進会議が公表した「『AI戦略 2019』(有識者提案)」には「何を以て『AI』または『AI技術』と判断するかに関して一定のコンセンサスはあるものの、それをことさらに厳密に定義することには現時点では適切であるとは思われない」と書かれている。

AIの親戚や遠縁までAIに含めると何でもありになってしまい「厳密に定義すること」は難しい。

4月12日付本欄記事で書き忘れたが、AIの定義をしない理由の一つは、機械学習を巡る見解の相違からくる無用の対立を避けたいからではないか。長年AIを研究してきた学者の中には機械学習を認めない人たちがおられる。「AI戦略 2019」の起草者は恐らくそうした先達(せんだつ)に配慮し、次のように書いた。

「近年では、機械学習、特に深層学習などに基づくものが中心的であるが、AI関連の技術開発は急速に進展しており、特定の技術に限定する必要性も低い」

もう一つ別の理由も考えられる。AIをしっかり定義するとそれに関わる専門人材が特定でき、統合イノベーション戦略推進会議が提言を打ち出す対象が狭くなる。

一方、2019年4月23日に経済産業省が発表した「IT人材需給に関する調査」という報告書には「IT人材」とは別に「AI人材」の需給見通しが出ていた。報告書にあるAI人材の定義は次の通りである。

AI研究者(AIサイエンティスト):AIを実現する数理モデルを研究する
AI開発者(AIエンジニア):モデルやその背景となる技術的な概念を理解した上でモデルをシステムとして実装する、あるいは既存のAIライブラリを活用してAI機能を搭載したシステムを開発する
AI事業企画(AIプランナー):モデルやその背景となる技術的な概念を理解した上で、あるいはAIの特徴や課題を理解した上で、AIを活用した製品・サービスを企画し、市場に売り出す

「AIを実現する数理モデル」の範囲を広げていくと、やはり何でもありになってしまいかねないが「AIなど」を担う人材に比べれば仕事の内容が分かる定義と言える。

紹介した3種類の「AI人材」が増えること自体は結構だが、教育再生やイノベーション戦略という壮大な言葉を冠する話ではない。

「IT人材需給に関する調査」によると、これらの「AI人材」は2018年に3.4万人不足しており、2030年に需給ギャップは最大で14.5万人になる。この見通しはAI需要の伸びが16.1%、生産性上昇率が0.0%とした場合である。

生産性上昇率を0.7%とすると12.4万人の不足になる。AI需要の伸びを10.3%、生産性上昇率を0.0%とすると2.4万人、生産性上昇率を0.7%とすると1.2万人がそれぞれ不足する。

以上のAI人材の需給見通しと従来型IT人材が2030年に10万人余るという見通しの両方が「IT人材需給に関する調査」に掲載されていた。

IT人材はいわゆるITベンダーとユーザー企業の情報システム部門にいる人材を指す。AI人材となるとITベンダー、情報システム部門に加えて事業部門やマーケティング部門、研究開発部門に所属する人材も含む。ややこしいので5月9日付本欄記事にはIT人材の需給見通しだけを紹介した。

 

【no.347】オンデヴァイスのAIは、音声認識のゲームチェンジャーになるか

オンデヴァイスのAIは、音声認識のゲームチェンジャーになるか

グーグルがこのほど、音声認識をスマートフォンなどのデヴァイス側で実行できる技術を開発した。ソフトウェアを25分の1に圧縮したことで、これまでサーヴァーで実行していたプログラムをデヴァイスに搭載できるようになったのだ。データをクラウドに送る必要がないため、通信が不要で処理速度が速いこの技術は、音声認識の利便性を飛躍的に高めるゲームチェンジャーになる可能性を秘めている。

TEXT BY TOM SIMONITE
TRANSLATION BY CHIHIRO OKA

WIRED(US)

Assistant

BENSIB/GETTY IMAGES

人工知能AI)による音声アシスタントに、毎日のように話しかけている人は多いだろう。でも結果はいつも思い通りというわけにはいかず、イライラさせられることもあるはずだ。

こうしたなか、グーグルが音声認識の精度を著しく向上させる新技術を明らかにした。音声認識ソフトウェアのサイズを25分の1に圧縮できたことで、音声操作などが飛躍的に便利になるという。

おかげで、これまでクラウドのサーヴァー側で動かしていたプログラムを、スマートフォンにインストールできるようになる。つまり、処理速度が格段に速くなるわけだ。これを最高経営責任者(CEO)のスンダー・ピチャイは「大きなできごと」だと説明した。

多くの処理がデヴァイス側で完結

開発者カンファレンス「Google I/O」の基調講演で披露されたデモでは、話した瞬間にデヴァイスがその内容を理解していく様子が示された。音声データをクラウドに送信する必要がないため反応が非常に速く、これなら確かにスマートフォンの操作方法が根本から変わる可能性もあるかもしれないと思わせる。

実際、グーグルのAIアシスタントは、アップルの「Siri」のような競争相手よりはるかに優れた能力を発揮した。シニアプログラムマネジャーのメギー・ホリンガーが、音声コマンドで何ができるかをひとつひとつ紹介していく。すべてのタスクで、競合他社の音声アシスタントより処理が速かった。しかも、毎回「OK、Google」というウェイクワードを言う必要がないという。

ホリンガーは、2回のタップと3つの短いフレーズだけで旅行の写真を友達に送ることに成功した。彼女が「イエローストーン(国立公園)の写真を見せて。動物の写っているやつ。ジャスティンに送って」と言うと、数秒もしないうちに「Google Photo」でバイソンを撮った写真が表示される。タップとスワイプだけでこの写真を探し出すのは、かなり骨が折れるだろう。

グーグルのAI部門を率いるジェフ・ディーンは、音声認識をデヴァイス側で完全に処理できるようになったことで「スマートフォンの使い方が変わる」とツイートしている。これまではサーヴァーでの処理とデヴァイスでの処理が併用されていたが、今後は多くの場合でデヴァイアス上ですべてが完結するようになる。

デヴァイスとの会話という体験が変わる

消費者テクノロジーの世界では、新しい技術が生活に必須なものへと進化するためには、処理速度の向上とバグをなくすことが重要課題とされる。ヴィデオチャットやマルチプレイのオンライゲームが当たり前となる上で、高性能パソコンとブローバンド接続が果たした役割を考えればわかるだろう。

デヴァイスだけで完結する音声認識システムについては、まだ提供が始まったわけではないし、当初はハイエンドモデルでしか利用できない。ただ、この新しいテクノロジーにより、デヴァイスとの会話という体験が完全に変わる可能性はある。

グーグルの音声アシスタントは2012年に始まったAI研究の成果のひとつであり、なかでも深層学習と呼ばれる手法が確立されたことで、エラー率は25パーセントも低下した。しかし、当時はまだデータはサーヴァー上でしか処理できなかった。クラウドに送ることで時間的な制約がかかるだけでなく、ネットワークエラーによるバグも生じる。

グーグルはこの問題を解決するため、深層学習のソフトウェアの圧縮に取り組んできた。そして、音声認識モデルにおいてはマイルストーンに到達したというわけだ。サーヴァーで動かしている音声認識プログラムは全体で2GBもあり、スマートフォン側で走らせるのはほぼ不可能だ。これに対し、最新版は同じパフォーマンスをわずか80MBで実現している。サイズにすると実に25分の1だ。

「ゲームチェンジャー」になる技術

クラウドベースより動作性が明らかによくなれば、ユーザーが音声コマンドやAIアシスタントを利用する頻度は増えるだろう。また、他社が同様の技術を開発して追いついてくるまでは、グーグルが市場を主導できるかもしれない。なお、アップルは2017年に「オフラインで使える個人アシスタント」の特許を出願している。

市場調査会社ガートナーのワーナー・ガーツは、オンデヴァイスの音声認識は「ゲームチェンジャー」であり、既存技術を利用したシステムを採用するアップルやアマゾンにとっては大きな脅威となるだろうと説明する。ガーツは「データ処理の遅延はこれまで常に大きな問題でした」と言う。たいていの人はこの遅延(レイテンシー)を感じたことがあるはずだ。

グーグルは、この新技術を別のアプリケーションにも活用している。端末で再生される音声の字幕化機能「Live Caption」だ。この機能では、友人から送られてきた動画からポッドキャストまで、どんなメディアでもリアルタイムで自動的に字幕を付けられる。デヴァイス側で処理が完結するため、機内モードでも使うこともできるという。

プライヴァシーの強化にもつながる取り組み

一方、グーグルは現在、「Euphonia」という研究プロジェクトに取り組んでいる。例えば、脳卒中などで発話機能に問題を抱える人が音声認識を使えるようにする研究で、対象者に音声サンプルの提供を呼びかけている。

プロダクトマネージャーのジュリー・キャティオウは、音声認識のデータ処理がオンデヴァイスでできるようになればデヴァイスの所有者に合わせたパーソナライゼーションが可能になり、汎用化が進むだろうと説明する。

データ処理を端末側で行うことは、プライヴァシーの強化にもつながる。字幕化したテキストデータは強制的にグーグルに送信されることもあるようだが、今年の開発者カンファレンスのメインテーマが「プライヴァシー保護」であったことに変わりはない。

ピチャイもほかの経営幹部も、個人情報の大量収集を巡る悪評をなんとかしようと躍起になっていた。具体的には、プライヴァシー設定の再編や、Googleアカウントにログインした状態でも検索履歴を残さないシークレットモードを一般検索やGoogleマップでも提供する方針が明らかにされている。

【no.346】AI業界の「白人男性偏重」がなくならない根本的な理由

AI業界の「白人男性偏重」がなくならない根本的な理由

人工知能(AI)業界において多様性がいかにひどく欠如しているかは、数字が物語っている。主要なAI会議で論文著者に占める女性の割合はわずか18%、AIの教授職では20%、フェイスブックとグーグルの研究職ではそれぞれ15%、10%だ。人種の多様性はさらにひどい。黒人の労働者は、グーグルの全労働者のうちのわずか2.5%で、フェイスブックとマイクロソフトでは4%だ。トランスジェンダーや他のジェンダーマイノリティのデータは手に入らないが、多様性が欠如しているという点では似たり寄ったりだろう。

このことは、AI産業の影響が、雇用や住宅供給から刑事裁判や軍に至るまでのすべてに影響するほど劇的に増大した今日、非常に厄介な問題となっている。ここに至るまで、テクノロジーは、その作成者のバイアスを驚くほど効果的に自動化してきた。女性の履歴書を低く評価することや、雇用と住宅供給での差別を永続化すること、人種差別主義的な取り締まり刑事裁判の有罪判決を維持することなどだ。

非営利団体のAIナウ研究所が4月に出した新しい報告書によると、問題解決のために異なる手法を用いない限り、こういった傾向は悪化する一方だという。

「テック業界における多様性欠如の問題は、急を要する新たな変曲点に到達しました」とAIナウの共同創設者であるメレディス・ウィテカーは語った。「何百万人もの人々が、これらのツールの影響を感じており、ツールに作り込まれたあらゆるAIのバイアスに影響されています」。

AIナウのチームは、多様性欠如に対応する取り組みが失敗に終わった2つの主要な理由を指摘する。1つは、「テック業界における女性」の増加に重点を置き、人種、ジェンダー、その他の分野での多様性の改善を軽んじたこと。2つ目は、「パイプラインの修正」、つまり、学校から業界への多様性のある志願者数を増加させるというアイデアに過度に集中したことだ。その結果、嫌がらせや不公平な給与、不均衡な権限など、女性とマイノリティがAI分野に留まるのを妨げているその他の制度上の不都合を軽視することになっている。

AIナウの研究者は、より包括的な方法で職場の多様性を改善するためのいくつか提言している。給与と機会の差を埋めるための手段、各部署に渡るリーダー職での少数グループの人を増やす対策、少数グループの人々を雇用し、職に留め続けることに対する経営層のインセンティブを変更する方法などだ。

しかし、この問題は、雇用や給与の実践よりも根が深い。そう語るのは、データ&ソサエティ研究所で人種差別とテクノロジーの関わりを研究しているジェシー・ダニエルズ特別研究員だ(ダニエルズ特別研究員は、今回のAIナウのレポートには関わっていない)。テック業界は基本的に、テクノロジーは社会とは独立して存在するという理念の上に構築された。

「90年代初頭、インターネットが、人種やジェンダー、それに障害のようなものから私たちを解き放つだろうと考えられていました。人々が『サイバー空間』と呼んでいるところへ行けば、身体性やアイデンティティについて、もはや考えなくてすむというアイデアです」。

そのアイデアは、今日までこの業界とともにあり続けてきた。そして、従業員の多様性を増加させることに対して繰り返される失敗と、AIのバイアスが原因で繰り返されるスキャンダルの根源になっている。テック企業は、自分たちを取り巻く性差別、人種差別、社会状況とは独立して自分たちは存在しているという「幻想の信念」に基づいて構築され、テック製品もまた、その信念に基づいて設計されている。

「これはバグではなくて、仕様なのです」とダニエルズ特別研究員はいう。