【no.354】AIアナウンサー「荒木ゆい」を地上波テレビ局が採用。放送現場の働き方が変わる?

AIアナウンサー「荒木ゆい」を地上波テレビ局が採用。放送現場の働き方が変わる?

高知県を放送エリアとする地上波テレビ局(フジテレビ系列)「高知さんさんテレビ」に、AIアナウンサー「荒木ゆい」が番組アナウンサーとして採用された。

「荒木ゆい」は、株式会社Specteeが開発した音声読み上げサービスだ。文章を音声で読み上げる「Text to Speech」技術にディープラーニング(深層学習)を取り入れることで、より人間に近い滑らかな発音での音声読み上げを実現している。

スタジオの空きやアナウンサーの拘束時間から開放される

これまでの番組制作では、ニューススタジオでアナウンサーなどが読み上げる音声を録音する必要があった。そこで課題となっていたのが、人員確保やスタジオスケジュールの調整だ。

「荒木ゆい」を採用することで、原稿をPCに文字入力するだけでアナウンス音声を準備できるようになる。スタジオの空きやアナウンサーの拘束時間を気にすることなく、効率的な番組制作が可能となる。

社員等の拘束時間の削減、一般的なスペックのPCでもアナウンス音声を作成でき、効率的な業務分担も実現しているという。

高知さんさんテレビでは今後、「荒木ゆい」を放送以外のイベントやウェブサイトでも活用することで、さらに効率的な働き方を推進する予定だ。

めざましテレビで「AI天気」の実証実験も

2019年4月、「荒木ゆい」の開発元であるSpecteeは、フジテレビ系列「めざましテレビ」、日本気象協会と連携し「AI天気」の実証実験も行った。

近年、異常気象などにより、季節外れの寒さや高温の日が多く発生している。日本気象協会が実施した調査では、「あなたがこの1週間の中で、天気予報を見る目的や理由をお選びください」と質問を行ったところ、傘などの持ち物の参考のために天気予報を利用している人が最も多く(69.3%)、続いて、服装を決めるために参考にしている人が多い(46.5%)との結果がでている。

上記の結果から、日本気象協会は、天気予報において体感を重視した服装や持ち物に関する情報が重要であると考えた。そうして、お天気情報カメラなどのカメラ映像をリアルタイムに解析し、服装などの判定をする「AI天気」が実証実験として行われたのだ。

【no.353】電通と双日、AIがマグロの尾部断面画像から品質判定するシステムを開発

電通と双日、AIがマグロの尾部断面画像から品質判定するシステムを開発

日本の伝統産業における長い歴史で培われてきた職人の技は、人類の経験知が集積された貴重な資源だ。これらのノウハウは、「職人の勘」と形容されるように、体系化や言語化ができない暗黙知であるとされ、担い手である職人も高齢化しており存続が危ぶまれている。

そんななか、電通と電通国際情報サービス、双日は、天然マグロの尾部断面画像からAIが品質判定を行うシステム「TUNA SCOPE」を開発し、今年3月に実証実験を行った。

電通と電通国際情報サービスが取り組む、熟練の職人が持つ技能継承が課題となっている産業において、職人の技能をAIなどの技術を活用して継承する取り組み「プロジェクト匠テック」の一環だという。

マグロの尾部断面画像からAIで品質判定し、「AIマグロ」としてブランド化

今回に実証実験では、一人前になるまで10年は必要といわれるマグロ仲買人の「目利き」のノウハウに着目。マグロの尾部断面の目視により品質判定を行う「尾切り検品」と呼ばれる職人技から得た膨大なデータを機械学習により継承した。

実証実験は、

  • ①「TUNA SCOPE」のβ版をマルミフーズ株式会社の尾切り検品業務に適用し、判定精度を検証
  • ②同システムが最高品質と判定したマグロを「AIマグロ(商標出願中)」としてブランド化し市場性を検証

の2段階で実施された。

①「TUNA SCOPE」のβ版開発と適用

マグロの尾部断面写真と、職人の4〜5段階の品質評価の結果を紐づけて尾切り検品のデータを取得し、画像解析を行うためのシステムを構築。

収集したデータを基にチューニングとディープラーニング・アルゴリズムの選定を行い、スマートフォンアプリとして実装した「TUNA SCOPE」β版を開発した。これをマルミフーズ焼津工場での検品業務で試験運用した結果、職人と85%の一致度でマグロの品質判定に成功。

②AIが最高品質と判定した「AIマグロ」の販売および市場性検証

「TUNA SCOPE」の運用で最高ランクと判定されたマグロを「AIマグロ」とし、商品ブランドロゴを開発。「産直グルメ回転ずし 函太郎Tokyo」で5日間にわたって提供し、約1,000皿を販売した。

アンケートの結果、注文客の約89%から「AIマグロ」に対する高い満足度を示す回答が得られたという。

電通グループは「TUNA SCOPE」のさらなる精度向上と実用化に向け、学習モデルの教師データの継続的な収集、解析アルゴリズムの最適化に向けた取り組みを続けていく。

また得られたノウハウをほかの産業分野でのAIによる「目利き」の継承に応用し、社会や企業の課題解決に貢献していくという。

【no.352】中国でパンダの「AI顔認証技術」を開発。一般向けにアプリも準備

中国でパンダの「AI顔認証技術」を開発。一般向けにアプリも準備

パンダ赤ちゃん

どれも同じに見えるパンダをAIで識別する技術が開発された。

Reuters

パンダの繁殖や保護を担う成都ジャイアントパンダ繁殖研究基地は今月、シンガポールの南洋理工大学、四川師範大学と共同で、パンダの画像や動画からAI顔認識技術を用いて個体識別する技術を開発したと発表した。

顔認証技術

成都ジャイアントパンダ繁殖研究基地

パンダと飼育員

パンダの個体識別は、研究者だけでなく飼育係のニーズも高いという。

Reuters

同基地によると、中国ではこれまで、4回にわたって専門家による野生パンダ大規模調査を実施し、パンダが約1800頭生息しているなどの基本状況を把握。多数の資料も収集した。

現在は捕獲や人の目のよる識別、毛髪や糞便からのDNA収集を通じてパンダの調査を行っているが、野生パンダは山奥の広い面積に生息しているため、人間による追跡や観測は効率が悪く、かつ危険を伴うという問題がある。

RTX1TGLO

Reuters

兄弟パンダ

同じにしか見えない2頭も識別可能に。

shutterstock.com

パンダの群れの様子や分布状況、年齢や性別、出産、死亡をより正確に把握するために、同基地は大学と協力し、2017年に画像によるパンダの個体識別技術開発に着手。2年かけて12万点の画像と数万点の動画をデータベース化し、映っているパンダにタグ付けを行うなどして、画像から個体を自動識別する技術を確立した。

同技術によって、パンダの生息区域内にカメラを設置することで、パンダの個体の状況をより正確に把握できるようになる。研究チームは今後、ビッグデータ分析を通じて、健康観察や群れの調査のより効率的な方法を開発するほか、近く、パンダの顔認識アプリも発表し、一般向けに提供する予定。

【no.351】1枚の写真が表情豊かにしゃべりだす。サムスンのAIが作る驚きのディープ・フェイク技術

1枚の写真が表情豊かにしゃべりだす。サムスンのAIが作る驚きのディープ・フェイク技術

1枚の写真が表情豊かにしゃべりだす。サムスンのAIが作る驚きのディープ・フェイク技術
Image: Egor Zakharov/YouTube

単なる口パクではなく、超リアルに動きます。

今の人工知能技術は、人の声を解析して任意のセリフをオバマ元大統領に喋らせたり、可愛い赤ちゃんの顔をイーロン・マスクにすげ替え不気味の谷のズンドコに突き落としたりと、思い付くことは何でも簡単に出来てしまう時代になりました。

たとえば教育目的で美術館がサルヴァドール・ダリを復活させたり、ネットやアプリ内で動くアバターを生成などという無害で素晴らしいディープ・フェイクもありますが……悪意があれば偽ポルノ映像を作って誰かに嫌がらせをすることも可能だったりして、光と闇が強い技術かと思われます。

ディープ・フェイクをお手軽に作れるという研究

この度、モスクワにあるSamsung(サムスン)の AIセンターに勤める科学者たちと、スコルコボ研究所がディープ・フェイクに関する報告書「Few-Shot Adversarial Learning of Realistic Neural Talking Head Models」を発表しました。これはたった数枚の写真(または絵画)に写った顔を、仮想的に喋らせるというものです。

科学者たちは昨年、機械学習を利用して超絶リアルな誰かの映像を生成するなど、何通りもの新しい方法でディープ・フェイクを生み出してきました。ですがまだ、そうした映像を作るために重要な前提条件がひとつあります。それはAIに学習させるべく、フェイク映像を生成したい人物の資料を、リアルにしたければしたいほど大量に集めないといけない、ということなんです。

学習素材を集める苦労

もちろん、これはもしオープンソースの画像収集ソフトや、モデルにしたい人物がネット上に充分な量の写真や映像を投稿していれば、大量の資料を集めることは不可能ではありません。しかしそれらはまだお手軽な作業ではありませんし、何より偽ポルノを作るときなどは、被害者になるかもしれない人たちが、どれほど自らが悪用可能なデータをシェアしているか注意深くなるようになりました。

ですがこの新システムは、結構な時間を費やすことが必須だった、資料集めの作業から開放してくれるのです。

190527_fakephoto2
Image: Egor Zakharov/YouTube

少ない資料と短時間で生成する

報告書にて、科学者たちはこのシステムが「限られた時間内」「一握りの写真からおしゃべりする頭」を生み出せる、と書いています。もし誰かがディープ・フェイクを作る場合、モデルになる人の大量の写真(トレーニング用データ・セット)をディープ・ニューラル・ネットワークに入力する必要があります。ですがこの科学者たちは、彼らのシステムが必要とするのは少しの写真でそんなに時間を要さず、フェイク映像を吐き出せる、というのです。

また研究結果には、「完璧なリアリズム」を作るため32枚の画像で訓練した、とあります。これは従来よりとても少ない上、今のネットでは簡単に集められる枚数ですよね。モデルにしたい人のFacebookページに行けば、それくらいの枚数を見つけるのは難しくないってことは、簡単に想像できちゃいます。さらに重要なのは、この技術は急速なスピードで開発が行なわれているってことだったりします。

こちらの映像では、たった8枚の画像から重点となる顔のパーツを見つけ、かなり自然なフェイク映像が出来上がった様子などが見られます。

Video: Egor Zakharov/YouTube

1枚からでも生成は可能ですが、8枚、32枚と資料が多いほどより良い映像が出来ることも比較してますね。16枚の自撮り写真からも自分のアバターを生成したり、ダリやアインシュタイン、マリリン・モンローといった実在した人物の写真だけでなく、イワン・クラムスコイの『見知らぬ女』やダ・ヴィンチの『モナ・リザ』といった絵画までもが生き生きと、表情豊かに動いていました。

1枚の静止画ですら、このシステムが命を吹き込めるのは凄いですよね。これらの例には、簡単にフェイクだと断言するのが難しいものもありました。

190527_fakephoto3
Image: Egor Zakharov/YouTube

応用が期待できる

報告書ではまた、科学者たちはこの種の技術の先には「ビデオ会議やマルチプレイヤー用ゲーム、それに特殊効果を扱う業界などでの遠隔配信にて実用的」かもしれない、と記しています。

テック企業がアニメ化したアバターやバーチャル・リアリティーへ移行するように、この技術はより個人的で現実的なヴィジュアルへと向かう、次の段階への自然な一歩のように感じられます。それに映像業界でも、たとえば亡くなった役者の復元ための大幅な時間短縮ができるようになるかもしれません。

一例として、映画『ローグ・ワン/スター・ウォーズ・ストーリー』では、かつてターキン総督を演じた故ピーター・カッシングと、若き日のレイア姫を再現して話題になったこともありましたが、この技術を利用すれば、そのVFXが時短できるわけです。

使い方は良心に委ねられる

しかしながら、フェイク映像として悪用のモデルにされた被害者に与える本当の脅威に目を向けず、ただこの技術を褒め称えるのは無責任かと思われます。実際にディープ・フェイクが世間に認知され始めた頃、ネット上の女性にとってこの技術がどれほど牙を剥くのかは、目と鼻の先といわれていたくらい。ネットには、こういう技術を悪用しようという輩が必ずいる、という厳しい現実が待っています。

ですが技術者たちは、日々もっと簡単に、もっと効果的に、と向上を目指すものなのです。何事にも当てはまりますが、使い方はその人の良心次第ですね。

【no.350】メルカリのAI経営術 サービス磨き不正防ぐ

メルカリのAI経営術 サービス磨き不正防ぐ

フリマアプリ最大手のメルカリがテクノロジー活用に力を注いでいる。マイクロサービスを全面採用し、継続的なサービスの強化と変化に強い組織づくりを目指す。AI(人工知能)の活用も強化し、利用者向け機能からシステム開発、従業員の日常業務まで効率を引き上げる。不正利用を防ぎ、信頼されるテックカンパニーに成長できるか。

図 メルカリの月間利用者数と流通総額の推移
利用者数は4年前の15倍に
[画像のクリックで拡大表示]

売上高は3年間で3倍に増え、月間利用者数(MAU)は4年前の15倍、従業員数は2年前の3倍に――。メルカリの事業と組織が急拡大している。2018年6月に東証マザーズに上場、2019年2月にはスマホ決済サービス「メルペイ」を始めた。2014年に進出した米国事業のアクセルも踏み込む。サービス強化に加え、2019年は認知度やブランドイメージの向上へ投資を増やす。

急成長する一方、経営幹部や社員の中には先行きへの危機感が広がる。事業強化や意思決定のスピード、サービスの使い勝手や品質――。サービスを動かすシステムの構造が複雑になり社員数が増え続ける中、これまでの勢いを維持できるのか。

「今のままエンジニア数が1000人を超えたらメルカリのアーキテクチャーは崩壊しかねない」。2017年初夏、CTO(最高技術責任者)を務める名村卓執行役員は山田進太郎会長兼CEO(最高経営責任者)と同社の先行きを議論した。当時のエンジニア数は100~120人。山田会長は1000人を超えるのは2020年ごろと見ていた。2018年10月時点のエンジニア数は350人である。

組織としての停滞を回避し「世界的なマーケットプレイス」になる目標を達成するため、メルカリはテクノロジーに活路を見いだす。目指すは「日本を代表するテックカンパニー」だ。2018年6月、マザーズ上場の記者会見で山田会長はこう宣言した。GAFA(グーグル、アップル、フェイスブック、アマゾン・ドット・コム)が目標であり想定するライバルだ。

製品やサービスの水準でGAFAを目指すだけではない。浜田優貴取締役CPO(最高プロダクト責任者)は「エンジニアのスキルでも差異化し、システム開発などに関する新たな技術を生みだせる企業を目指す」と意気込む。

【no.349】AIが電話予約する「Google Duplex」、通話の25%は人間によるもの?

AIが電話予約する「Google Duplex」、通話の25%は人間によるもの?

Googleが2018年に「Duplex」を発表したとき、人間そっくりに話す人工知能(AI)を利用して予約を取るためのシステムだとうたっていた。

Google Assistant
Googleアシスタントがユーザーの代わりに電話でレストランや美容院の予約を取る
提供:James Martin/CNET

だが、Duplexによる通話のおよそ25%はロボットではなく実際は人間が開始していることが分かったという。Googleが米国時間5月22日にそう述べたと報じられている。また、およそ15%はAIソフトウェアが通話した後に人間が引き継いで予約を完了しているという。The New York Times(NYT)は先にこの数字について報じていた。

このサービスが正常に機能する場合、人間のように話すボットが同社のデジタルアシスタントソフトウェア「Googleアシスタント」のユーザーのためにレストランや美容院の予約を取る。Duplexは「uh」(ええと)や「um」(うーん)といった言いよどみを用いたり、特定の語を間延びさせたり、声を上げ下げしたりして人間のように話す。

Googleの最高経営責任者(CEO)であるSundar Pichai氏が2018年5月にDuplexのデモを披露したときから、同社はAIの倫理をめぐる議論に巻き込まれることになった。このソフトウェアは、会話の相手がコンピュータではなく人間かもしれないと人間に思い違いをさせる可能性があるのではないかと懸念する声があった。Googleはその後、人々に話し相手がロボットだと伝える機能を構築すると述べた。

だがあらゆる議論にもかかわらず、Duplexの実際の成功率は、このサービスが依然として大いに人間に依存していることを示している。Googleはロボットの代わりに人間に通話させることを決定する際、複数の兆候を考慮するとNYTは報じている。例えば、レストランが予約を受け付けているかどうかが定かではない場合、Duplexは人間を用いる可能性があるという。

その一方で、GoogleはDuplexを拡張し、レストラン以外の予約にも対応させている。同社は2019年5月、Duplexのサービスを拡張した「Duplex on the web」を発表した。Duplex on the webは、「Googleカレンダー」や「Gmail」の情報を利用して、モバイルウエブ上の予約ページでユーザーの個人情報のフォームへの入力を自動的に行う。レンタカーや映画のチケットの予約に利用できる。

【no.348】夢見る「AI人材」じゃいられない

夢見る「AI人材」じゃいられない

「『など』をむやみに使うな、こうだとはっきり書け」。1985年に記者として仕事を始めた当初、先輩から何度か注意された。

例えば「来年60歳になる谷島はBABYMETALなどを好んで聴いている」と書くのはよろしくない。「など」を削るか、「BABYMETALや相川七瀬や黒木渚を好んで聴いている。ももいろクローバーZの最新アルバムも買った」と書いたほうがよい。

2019年5月18日付の日本経済新聞に載った「AI人材教育 国が認定」という見出しの記事では「AIなど」が7回繰り返されていた。

記事を読むと「AIやロボットなどの技術革新」あるいは「AIや数理、データサイエンスの分野」「AIやデータ分析」と書かれている。つまり「AIなど」の「など」にはロボット、数理、データサイエンス、データ分析が入り、さらにそれらを使ったイノベーションも含む。

AIは人工知能のことだからロボットは親戚と言える。データサイエンスやデータ分析はAIとは違う話のような気がするが遠縁としておく。昨今のAIの主役は機械学習であり、AIに既存のデータを大量に読ませ、勉強させ、新しいデータに対して判断させることになる。

以上のような「AIなど」の担い手が足りない。そこで政府の教育再生実行会議が「AIなど先端技術分野の人材育成の強化策を盛り込んだ第11次提言をまとめ、安倍晋三首相に提出した」。これが日経新聞の5月18日付記事の内容であった。

「AIなど」にすれば何でもあり

「AIなど」を繰り返さざるを得なかったのはAIの定義が曖昧だからである。2019年4月12日付本欄で紹介した通り、内閣府の統合イノベーション戦略推進会議が公表した「『AI戦略 2019』(有識者提案)」には「何を以て『AI』または『AI技術』と判断するかに関して一定のコンセンサスはあるものの、それをことさらに厳密に定義することには現時点では適切であるとは思われない」と書かれている。

AIの親戚や遠縁までAIに含めると何でもありになってしまい「厳密に定義すること」は難しい。

4月12日付本欄記事で書き忘れたが、AIの定義をしない理由の一つは、機械学習を巡る見解の相違からくる無用の対立を避けたいからではないか。長年AIを研究してきた学者の中には機械学習を認めない人たちがおられる。「AI戦略 2019」の起草者は恐らくそうした先達(せんだつ)に配慮し、次のように書いた。

「近年では、機械学習、特に深層学習などに基づくものが中心的であるが、AI関連の技術開発は急速に進展しており、特定の技術に限定する必要性も低い」

もう一つ別の理由も考えられる。AIをしっかり定義するとそれに関わる専門人材が特定でき、統合イノベーション戦略推進会議が提言を打ち出す対象が狭くなる。

一方、2019年4月23日に経済産業省が発表した「IT人材需給に関する調査」という報告書には「IT人材」とは別に「AI人材」の需給見通しが出ていた。報告書にあるAI人材の定義は次の通りである。

AI研究者(AIサイエンティスト):AIを実現する数理モデルを研究する
AI開発者(AIエンジニア):モデルやその背景となる技術的な概念を理解した上でモデルをシステムとして実装する、あるいは既存のAIライブラリを活用してAI機能を搭載したシステムを開発する
AI事業企画(AIプランナー):モデルやその背景となる技術的な概念を理解した上で、あるいはAIの特徴や課題を理解した上で、AIを活用した製品・サービスを企画し、市場に売り出す

「AIを実現する数理モデル」の範囲を広げていくと、やはり何でもありになってしまいかねないが「AIなど」を担う人材に比べれば仕事の内容が分かる定義と言える。

紹介した3種類の「AI人材」が増えること自体は結構だが、教育再生やイノベーション戦略という壮大な言葉を冠する話ではない。

「IT人材需給に関する調査」によると、これらの「AI人材」は2018年に3.4万人不足しており、2030年に需給ギャップは最大で14.5万人になる。この見通しはAI需要の伸びが16.1%、生産性上昇率が0.0%とした場合である。

生産性上昇率を0.7%とすると12.4万人の不足になる。AI需要の伸びを10.3%、生産性上昇率を0.0%とすると2.4万人、生産性上昇率を0.7%とすると1.2万人がそれぞれ不足する。

以上のAI人材の需給見通しと従来型IT人材が2030年に10万人余るという見通しの両方が「IT人材需給に関する調査」に掲載されていた。

IT人材はいわゆるITベンダーとユーザー企業の情報システム部門にいる人材を指す。AI人材となるとITベンダー、情報システム部門に加えて事業部門やマーケティング部門、研究開発部門に所属する人材も含む。ややこしいので5月9日付本欄記事にはIT人材の需給見通しだけを紹介した。

 

【no.347】オンデヴァイスのAIは、音声認識のゲームチェンジャーになるか

オンデヴァイスのAIは、音声認識のゲームチェンジャーになるか

グーグルがこのほど、音声認識をスマートフォンなどのデヴァイス側で実行できる技術を開発した。ソフトウェアを25分の1に圧縮したことで、これまでサーヴァーで実行していたプログラムをデヴァイスに搭載できるようになったのだ。データをクラウドに送る必要がないため、通信が不要で処理速度が速いこの技術は、音声認識の利便性を飛躍的に高めるゲームチェンジャーになる可能性を秘めている。

TEXT BY TOM SIMONITE
TRANSLATION BY CHIHIRO OKA

WIRED(US)

Assistant

BENSIB/GETTY IMAGES

人工知能AI)による音声アシスタントに、毎日のように話しかけている人は多いだろう。でも結果はいつも思い通りというわけにはいかず、イライラさせられることもあるはずだ。

こうしたなか、グーグルが音声認識の精度を著しく向上させる新技術を明らかにした。音声認識ソフトウェアのサイズを25分の1に圧縮できたことで、音声操作などが飛躍的に便利になるという。

おかげで、これまでクラウドのサーヴァー側で動かしていたプログラムを、スマートフォンにインストールできるようになる。つまり、処理速度が格段に速くなるわけだ。これを最高経営責任者(CEO)のスンダー・ピチャイは「大きなできごと」だと説明した。

多くの処理がデヴァイス側で完結

開発者カンファレンス「Google I/O」の基調講演で披露されたデモでは、話した瞬間にデヴァイスがその内容を理解していく様子が示された。音声データをクラウドに送信する必要がないため反応が非常に速く、これなら確かにスマートフォンの操作方法が根本から変わる可能性もあるかもしれないと思わせる。

実際、グーグルのAIアシスタントは、アップルの「Siri」のような競争相手よりはるかに優れた能力を発揮した。シニアプログラムマネジャーのメギー・ホリンガーが、音声コマンドで何ができるかをひとつひとつ紹介していく。すべてのタスクで、競合他社の音声アシスタントより処理が速かった。しかも、毎回「OK、Google」というウェイクワードを言う必要がないという。

ホリンガーは、2回のタップと3つの短いフレーズだけで旅行の写真を友達に送ることに成功した。彼女が「イエローストーン(国立公園)の写真を見せて。動物の写っているやつ。ジャスティンに送って」と言うと、数秒もしないうちに「Google Photo」でバイソンを撮った写真が表示される。タップとスワイプだけでこの写真を探し出すのは、かなり骨が折れるだろう。

グーグルのAI部門を率いるジェフ・ディーンは、音声認識をデヴァイス側で完全に処理できるようになったことで「スマートフォンの使い方が変わる」とツイートしている。これまではサーヴァーでの処理とデヴァイスでの処理が併用されていたが、今後は多くの場合でデヴァイアス上ですべてが完結するようになる。

デヴァイスとの会話という体験が変わる

消費者テクノロジーの世界では、新しい技術が生活に必須なものへと進化するためには、処理速度の向上とバグをなくすことが重要課題とされる。ヴィデオチャットやマルチプレイのオンライゲームが当たり前となる上で、高性能パソコンとブローバンド接続が果たした役割を考えればわかるだろう。

デヴァイスだけで完結する音声認識システムについては、まだ提供が始まったわけではないし、当初はハイエンドモデルでしか利用できない。ただ、この新しいテクノロジーにより、デヴァイスとの会話という体験が完全に変わる可能性はある。

グーグルの音声アシスタントは2012年に始まったAI研究の成果のひとつであり、なかでも深層学習と呼ばれる手法が確立されたことで、エラー率は25パーセントも低下した。しかし、当時はまだデータはサーヴァー上でしか処理できなかった。クラウドに送ることで時間的な制約がかかるだけでなく、ネットワークエラーによるバグも生じる。

グーグルはこの問題を解決するため、深層学習のソフトウェアの圧縮に取り組んできた。そして、音声認識モデルにおいてはマイルストーンに到達したというわけだ。サーヴァーで動かしている音声認識プログラムは全体で2GBもあり、スマートフォン側で走らせるのはほぼ不可能だ。これに対し、最新版は同じパフォーマンスをわずか80MBで実現している。サイズにすると実に25分の1だ。

「ゲームチェンジャー」になる技術

クラウドベースより動作性が明らかによくなれば、ユーザーが音声コマンドやAIアシスタントを利用する頻度は増えるだろう。また、他社が同様の技術を開発して追いついてくるまでは、グーグルが市場を主導できるかもしれない。なお、アップルは2017年に「オフラインで使える個人アシスタント」の特許を出願している。

市場調査会社ガートナーのワーナー・ガーツは、オンデヴァイスの音声認識は「ゲームチェンジャー」であり、既存技術を利用したシステムを採用するアップルやアマゾンにとっては大きな脅威となるだろうと説明する。ガーツは「データ処理の遅延はこれまで常に大きな問題でした」と言う。たいていの人はこの遅延(レイテンシー)を感じたことがあるはずだ。

グーグルは、この新技術を別のアプリケーションにも活用している。端末で再生される音声の字幕化機能「Live Caption」だ。この機能では、友人から送られてきた動画からポッドキャストまで、どんなメディアでもリアルタイムで自動的に字幕を付けられる。デヴァイス側で処理が完結するため、機内モードでも使うこともできるという。

プライヴァシーの強化にもつながる取り組み

一方、グーグルは現在、「Euphonia」という研究プロジェクトに取り組んでいる。例えば、脳卒中などで発話機能に問題を抱える人が音声認識を使えるようにする研究で、対象者に音声サンプルの提供を呼びかけている。

プロダクトマネージャーのジュリー・キャティオウは、音声認識のデータ処理がオンデヴァイスでできるようになればデヴァイスの所有者に合わせたパーソナライゼーションが可能になり、汎用化が進むだろうと説明する。

データ処理を端末側で行うことは、プライヴァシーの強化にもつながる。字幕化したテキストデータは強制的にグーグルに送信されることもあるようだが、今年の開発者カンファレンスのメインテーマが「プライヴァシー保護」であったことに変わりはない。

ピチャイもほかの経営幹部も、個人情報の大量収集を巡る悪評をなんとかしようと躍起になっていた。具体的には、プライヴァシー設定の再編や、Googleアカウントにログインした状態でも検索履歴を残さないシークレットモードを一般検索やGoogleマップでも提供する方針が明らかにされている。

【no.346】AI業界の「白人男性偏重」がなくならない根本的な理由

AI業界の「白人男性偏重」がなくならない根本的な理由

人工知能(AI)業界において多様性がいかにひどく欠如しているかは、数字が物語っている。主要なAI会議で論文著者に占める女性の割合はわずか18%、AIの教授職では20%、フェイスブックとグーグルの研究職ではそれぞれ15%、10%だ。人種の多様性はさらにひどい。黒人の労働者は、グーグルの全労働者のうちのわずか2.5%で、フェイスブックとマイクロソフトでは4%だ。トランスジェンダーや他のジェンダーマイノリティのデータは手に入らないが、多様性が欠如しているという点では似たり寄ったりだろう。

このことは、AI産業の影響が、雇用や住宅供給から刑事裁判や軍に至るまでのすべてに影響するほど劇的に増大した今日、非常に厄介な問題となっている。ここに至るまで、テクノロジーは、その作成者のバイアスを驚くほど効果的に自動化してきた。女性の履歴書を低く評価することや、雇用と住宅供給での差別を永続化すること、人種差別主義的な取り締まり刑事裁判の有罪判決を維持することなどだ。

非営利団体のAIナウ研究所が4月に出した新しい報告書によると、問題解決のために異なる手法を用いない限り、こういった傾向は悪化する一方だという。

「テック業界における多様性欠如の問題は、急を要する新たな変曲点に到達しました」とAIナウの共同創設者であるメレディス・ウィテカーは語った。「何百万人もの人々が、これらのツールの影響を感じており、ツールに作り込まれたあらゆるAIのバイアスに影響されています」。

AIナウのチームは、多様性欠如に対応する取り組みが失敗に終わった2つの主要な理由を指摘する。1つは、「テック業界における女性」の増加に重点を置き、人種、ジェンダー、その他の分野での多様性の改善を軽んじたこと。2つ目は、「パイプラインの修正」、つまり、学校から業界への多様性のある志願者数を増加させるというアイデアに過度に集中したことだ。その結果、嫌がらせや不公平な給与、不均衡な権限など、女性とマイノリティがAI分野に留まるのを妨げているその他の制度上の不都合を軽視することになっている。

AIナウの研究者は、より包括的な方法で職場の多様性を改善するためのいくつか提言している。給与と機会の差を埋めるための手段、各部署に渡るリーダー職での少数グループの人を増やす対策、少数グループの人々を雇用し、職に留め続けることに対する経営層のインセンティブを変更する方法などだ。

しかし、この問題は、雇用や給与の実践よりも根が深い。そう語るのは、データ&ソサエティ研究所で人種差別とテクノロジーの関わりを研究しているジェシー・ダニエルズ特別研究員だ(ダニエルズ特別研究員は、今回のAIナウのレポートには関わっていない)。テック業界は基本的に、テクノロジーは社会とは独立して存在するという理念の上に構築された。

「90年代初頭、インターネットが、人種やジェンダー、それに障害のようなものから私たちを解き放つだろうと考えられていました。人々が『サイバー空間』と呼んでいるところへ行けば、身体性やアイデンティティについて、もはや考えなくてすむというアイデアです」。

そのアイデアは、今日までこの業界とともにあり続けてきた。そして、従業員の多様性を増加させることに対して繰り返される失敗と、AIのバイアスが原因で繰り返されるスキャンダルの根源になっている。テック企業は、自分たちを取り巻く性差別、人種差別、社会状況とは独立して自分たちは存在しているという「幻想の信念」に基づいて構築され、テック製品もまた、その信念に基づいて設計されている。

「これはバグではなくて、仕様なのです」とダニエルズ特別研究員はいう。

【no.345】イスラエルのAIチップメーカーが最新ディープラーニングチップを発表

イスラエルのAIチップメーカーが最新ディープラーニングチップを発表

Hailoは、テルアビブに本拠を置くAIチップメーカーだ。米国時間の5月14日、同社初のディープラーニングプロセッサとなるHailo-8チップのサンプル出荷を開始すると発表した。このチップは、1秒あたり最大26テラオペレーション(TOPS)が保証されている。現在、何社かの選抜された顧客とともにテスト中で、その多くは自動車業界だ。

Hailoは、昨年になって表舞台に登場した会社で、シリーズAラウンドで1250万ドル(約13億7000万円)を調達した。その時点では、まだチップのサンプル出荷もできていなかった。同社によれば、Hailo-8は他のあらゆるエッジプロセッサの性能を凌駕し、しかもより小さなチップサイズ、より少ないメモリサイズで、その性能を達成できるという。「ニューラルネットワークの中核的な性質に特化したアーキテクチャを設計することにより、エッジデバイスはディープラーニングのアプリケーションをフルスケールで、しかも従来のソリューションよりも効率的かつ効果的に、さらに持続可能な状態で実行できるようになりました」と、同社は説明している。

Hailoでは、自社のチップが、Nvidiaの競合するJavier Xavier AGXよりも、いくつかのベンチマークで優れていると主張している。しかも、消費電力も少ないので、比較的低温で動作するという。これは、小さなIoTデバイスでは特に重要な特長と言えるだろう。

もちろん、さらに多くのエンジニアがこうしたチップを手にしたとき、それらが実際にうまく動作するのか、ということも確かめる必要があるだろう。しかし、エッジ領域でのAIチップに対する需要が増え続けることは疑いようがない。なにしろ市場は数年前に、演算処理をクラウド内に集約化することをやめ、エッジに分散することにシフトしたのだから。それは、応答時間を短縮し、バンド幅のコストを削減し、ネットワーク性能に依存しない安定したプラットフォームを提供するためだ。

後にIntelに買収されたMobileyeという先例と同じように、Hailoも自動車業界のOEMや1次サプライヤと協業してチップを市場に供給することになる。しかしHailoでは、スマートホーム製品などの垂直市場も視野に入れている。実際には、物体の検出や識別のために高性能のAIチップを必要としている、あらゆる業界が対象となりうる。

「近年、ディープラーニングが応用可能な分野が増加し続けるのを目の当たりにしてきました。それはサーバークラスのGPUによって可能となったことです」と、HailoのCEO、Orr Danon氏は述べている。「しかし、産業はAIによってますます大きな力を獲得し、むしろかき回されているような状況もあります。そのため、類似したアーキテクチャで過去のプロセッサを置き換え、エッジ領域のデバイスでディープラーニングを可能にすることが、切実に必要となっているのです。Hailoのチップは、最初から、まさにそのために設計されたものなのです」。