【no.351】1枚の写真が表情豊かにしゃべりだす。サムスンのAIが作る驚きのディープ・フェイク技術

1枚の写真が表情豊かにしゃべりだす。サムスンのAIが作る驚きのディープ・フェイク技術

単なる口パクではなく、超リアルに動きます。

今の人工知能技術は、人の声を解析して任意のセリフをオバマ元大統領に喋らせたり、可愛い赤ちゃんの顔をイーロン・マスクにすげ替え不気味の谷のズンドコに突き落としたりと、思い付くことは何でも簡単に出来てしまう時代になりました。

たとえば教育目的で美術館がサルヴァドール・ダリを復活させたり、ネットやアプリ内で動くアバターを生成などという無害で素晴らしいディープ・フェイクもありますが……悪意があれば偽ポルノ映像を作って誰かに嫌がらせをすることも可能だったりして、光と闇が強い技術かと思われます。

ディープ・フェイクをお手軽に作れるという研究

この度、モスクワにあるSamsung（サムスン）の AIセンターに勤める科学者たちと、スコルコボ研究所がディープ・フェイクに関する報告書｢Few-Shot Adversarial Learning of Realistic Neural Talking Head Models｣を発表しました。これはたった数枚の写真（または絵画）に写った顔を、仮想的に喋らせるというものです。

科学者たちは昨年、機械学習を利用して超絶リアルな誰かの映像を生成するなど、何通りもの新しい方法でディープ・フェイクを生み出してきました。ですがまだ、そうした映像を作るために重要な前提条件がひとつあります。それはAIに学習させるべく、フェイク映像を生成したい人物の資料を、リアルにしたければしたいほど大量に集めないといけない、ということなんです。

学習素材を集める苦労

もちろん、これはもしオープンソースの画像収集ソフトや、モデルにしたい人物がネット上に充分な量の写真や映像を投稿していれば、大量の資料を集めることは不可能ではありません。しかしそれらはまだお手軽な作業ではありませんし、何より偽ポルノを作るときなどは、被害者になるかもしれない人たちが、どれほど自らが悪用可能なデータをシェアしているか注意深くなるようになりました。

ですがこの新システムは、結構な時間を費やすことが必須だった、資料集めの作業から開放してくれるのです。

190527_fakephoto2 — Image: Egor Zakharov/YouTube

少ない資料と短時間で生成する

報告書にて、科学者たちはこのシステムが｢限られた時間内｣で｢一握りの写真からおしゃべりする頭｣を生み出せる、と書いています。もし誰かがディープ・フェイクを作る場合、モデルになる人の大量の写真（トレーニング用データ・セット）をディープ・ニューラル・ネットワークに入力する必要があります。ですがこの科学者たちは、彼らのシステムが必要とするのは少しの写真でそんなに時間を要さず、フェイク映像を吐き出せる、というのです。

また研究結果には、｢完璧なリアリズム｣を作るため32枚の画像で訓練した、とあります。これは従来よりとても少ない上、今のネットでは簡単に集められる枚数ですよね。モデルにしたい人のFacebookページに行けば、それくらいの枚数を見つけるのは難しくないってことは、簡単に想像できちゃいます。さらに重要なのは、この技術は急速なスピードで開発が行なわれているってことだったりします。

こちらの映像では、たった8枚の画像から重点となる顔のパーツを見つけ、かなり自然なフェイク映像が出来上がった様子などが見られます。

Video: Egor Zakharov/YouTube

1枚からでも生成は可能ですが、8枚、32枚と資料が多いほどより良い映像が出来ることも比較してますね。16枚の自撮り写真からも自分のアバターを生成したり、ダリやアインシュタイン、マリリン・モンローといった実在した人物の写真だけでなく、イワン・クラムスコイの『見知らぬ女』やダ・ヴィンチの『モナ・リザ』といった絵画までもが生き生きと、表情豊かに動いていました。

1枚の静止画ですら、このシステムが命を吹き込めるのは凄いですよね。これらの例には、簡単にフェイクだと断言するのが難しいものもありました。

190527_fakephoto3 — Image: Egor Zakharov/YouTube

応用が期待できる

報告書ではまた、科学者たちはこの種の技術の先には｢ビデオ会議やマルチプレイヤー用ゲーム、それに特殊効果を扱う業界などでの遠隔配信にて実用的｣かもしれない、と記しています。

テック企業がアニメ化したアバターやバーチャル・リアリティーへ移行するように、この技術はより個人的で現実的なヴィジュアルへと向かう、次の段階への自然な一歩のように感じられます。それに映像業界でも、たとえば亡くなった役者の復元ための大幅な時間短縮ができるようになるかもしれません。

一例として、映画『ローグ・ワン/スター・ウォーズ・ストーリー』では、かつてターキン総督を演じた故ピーター・カッシングと、若き日のレイア姫を再現して話題になったこともありましたが、この技術を利用すれば、そのVFXが時短できるわけです。

使い方は良心に委ねられる

しかしながら、フェイク映像として悪用のモデルにされた被害者に与える本当の脅威に目を向けず、ただこの技術を褒め称えるのは無責任かと思われます。実際にディープ・フェイクが世間に認知され始めた頃、ネット上の女性にとってこの技術がどれほど牙を剥くのかは、目と鼻の先といわれていたくらい。ネットには、こういう技術を悪用しようという輩が必ずいる、という厳しい現実が待っています。

ですが技術者たちは、日々もっと簡単に、もっと効果的に、と向上を目指すものなのです。何事にも当てはまりますが、使い方はその人の良心次第ですね。