【no.137】AIが声を失ったラジオ記者の声を復元　放送復帰へ＝米

2年前に病気で声を失った米国のラジオ・ジャーナリストが、人工知能（AI）のお陰で放送に復帰する。コックス・メディア・グループで働くジェイミー・ドゥプリーさん（54）は、珍しい中枢神経疾患にかかり、しゃべることができなくなっていた。

ドゥプリーさんの新しい声は、スコットランドのセレプロック社の手によって作られた。同社の技術ではドゥプリーさんの過去の音声記録を使い、脳神経を模した学習システム「ニューラルネットワーク」に、ドゥプリーさんがどのようにしゃべるのかを推測させる。

ドゥプリーさんはBBCの取材で、「この技術のお陰で仕事を確保し、家族にもひどい財政難を味わわせずにすんだ」と話した。

一般的には誰かの声を作るとき、必要なデータを集めるためには30時間にわたって文章を読む必要がある。
AIはこの音声ファイルから単語を切り取って状況に合わせてつなげるか、その人のしゃべるパターンを推測・模倣するか、どちらかの動作を行う。
どちらの方法も何万ポンドものコストがかかり、1つの声を作るのに1カ月を要する。

このプロセスを短縮し、より安価で提供するため、セレプロックは2006年から独自のニューラルネットワークを開発し始めた。
今では、ウェブサイトに載っている文章を録音すると、500ポンド（約7万3000円）で数日間で音声を生成してくれるようになった。

AIは読まれた単語を1語につき100個の要素を細切れにする。これを数多くの一般的な単語で繰り返すことで、最終的にはその人物がどのように発音しているのかを理解し、単語に含まれる全ての要素について決まった順序があることを突き止める。
それからニューラルネットワークが独自の音を生成し、その人物が話したとき、会話で使う単語がどのように聞こえるかを推測する。
世界中のコンピューター科学者が、ニューラルネットワークに人間の脳を模倣をさせるため、画像認識できるよう訓練してきた。しかしセレプロックによると、AIにとっては音声の方がもっと簡単だという。

同社のクリス・ピドコック創業者兼最高技術責任者（CTO）は、「AI技術は小さく範囲が限定された問題でこそ活躍する。誰かの話し方をまねることは、ディープニューラルネットワーク（深層学習するシステム）が得意とすること」と説明する。

ドゥプリーさんは過去35年間、ワシントンの米議会から政治ニュースを報じ続けてきた。またジャーナリストとして6つのラジオ局で番組制作に関わっており、彼の声は仕事に不可欠なものだ。

ドゥプリーさんはセレプロック社によるコンピューター生成された音声を使い、6月25日から米ABC傘下のWSBアトランタ（ジョージア州）と、コックス・メディアが保有するオーランド（フロリダ州）、ジャクソンビル（同）、デイトン（オハイオ州）、タルサ（オクラホマ州）の各放送局でラジオに復帰することが決まった。

ドゥプリーさんは新しい声を使い、自身が書いた原稿をパソコン上の音声読み上げソフト「バラボルカ」に読み込ませ、音声録音を作ることができるようになった。

録音された単語やフレーズの発音が正しくない場合は、子音や母音を遅くしたり、正しく発音されている単語に置き換えたり、音程を変えたりできる。このようにして、1つの報道を7分ほどで作ることができる。

「これは私です。間違いなく」とドゥプリーさんは話す。

「確かにわずかに機械的ですが、誰も完璧な肉声になるとは言っていませんでしたから」ドゥプリーさんは家族や同僚と話すときはタブレットを使ったり、数単語ずつゆっくり話したりしているというが、新しい声を得たことで人生が大きく変わったと語った。

出せなくなってしまった声を補う事ができるようになったとは驚きですね…！
次回の更新も楽しみにして頂けますと幸いです！