【no.316】AIによる自動文字起こし、“危ういワード”をどう排除する?

AIによる自動文字起こし、“危ういワード”をどう排除する?

今年3月に行われた元メジャーリーガー・イチロー選手の現役引退会見は多くの人たちの注目を集めた。この様子はネットテレビ「AbemaTV」でもライブ配信されたが、AI(人工知能)を使ったリアルタイム字幕のテキストに間違いが多く、ネットで話題になった。

音声認識による文字入力サービスはいくつも登場しているが、特に法人向けサービスなどでは、イチロー選手の会見で出てきたような“危ういワード”をどう排除していくかがポイントになる。

国内大手の電子書籍取次であるメディアドゥホールディングスも、音声文字起こしサービスを提供する企業の一つ。同社はGoogleの音声認識API「Cloud Speech API」を活用した音声自動文字起こしシステム「Smart書記」を開発し、法人向けに提供している。

AI音声自動文字起こしシステム「Smart書記」の画面

メディアドゥホールディングスのSmart書記事業部 榊原輝雄マネージャー(プロダクト担当)は、「現状、文字起こしで“良くないワード”が表示されてしまうのは事実で、課題に感じている」とし、「同意を得たユーザーから取得した日本語の音声データをGoogleに渡すなどして、テキスト化の精度を上げて対策する」と説明する。

AISmart書記とは
AIクラウドでデータを共有できる

NGワードにどう対応するか

Smart書記は、マイクから集音した音声をAIによる音声認識でテキスト化するWebサービス。複数のマイクを用意すれば、会議、セミナー、商談、取材における複数話者の会話を1つの収録データとしてクラウド上で共有可能。営業担当者が商談中に交わした会話のテキストデータを、本社にいる担当者がリアルタイムで編集したりできる。110の言語への自動翻訳も可能で、出力するフォーマットはテキストファイル、Word、Excelから選べる。

AIWordでテキストデータを出力

今秋にはiOSアプリも提供予定。ピンマイクを用意しなくても、iPhoneのマイクで音声を認識し、テキスト内容も確認できる。

AIiOSアプリも今秋提供する予定
AI自動翻訳も可能だ

ピンマイクによる音声認識のデモでは、発話とほぼ同時に音声がテキスト化され、精度も悪くない印象だった。榊原マネージャーは「音声も発言内容もはっきりしているセミナー用途では実用に耐えうるが、普段の会議ではAIが認識しやすいよう、はっきりしゃべる必要がある」と話す。ICレコーダーの音声データを直接PCに取り込むこともできるが、音質が良くないため肉声より精度は落ちるという。

同社は2017年10月に徳島県知事の記者会見などにSmart書記を利用する実証実験を行っていた。自治体からのニーズは多く、民間でも役員会、決算説明会など引き合いは多いとしている。「特に営業マンは商談後に帰社し、夜遅くまで報告書をまとめる必要があり、働き方改革を進める会社にニーズがある」(榊原マネージャー)

一方で、前述したように精度面での課題は残る。Smart書記では明らかに「NG」とされるワードのフィードバックを受け付けており、NGワードのデータをためている。「Facebook」を「フェイスブック」表記にしたいなど、ユーザーごとの要望には辞書登録機能で対応する。

AIテキスト訂正用の辞書機能を用意

こうしたNGワードの照合は、リアルタイムで音声をテキスト化し、その内容をサービス画面に反映する間に行う。そのため、リアルタイムで処理している間、一瞬NGワードが表示されてしまうこともある。榊原マネージャーは「句読点や改行など日本語特有の表現は、インテグレートの際にわれわれで調整する必要がある。文字起こしの精度についてもGoogleと話し合いながら引き続き改善を続けたい」と語った。