NHKがなんで高度なスキルを持つオペレーターや製作技術要員の確保、設備のことを繰り返し言うのか、その理由が分かった。#jimaku #nhk #syuwa_yobo #jishin
生字幕制作のコスト低減、効率的な字幕制作を目指したはずの音声認識技術を用いた字幕制作技術が逆に高コストで非効率的なシステムであることが判明した。
ニュースの生放送の前に原稿を読んで音声認識システムに登録していくので、突発的な緊急放送に対応できないのだ。
平成8年から平成13年まで10億円の予算で、字幕自動制作・送出システムを作る通信放送機構の「視聴覚障害者向け放送ソフト制作技術研究開発プロジェクト研究開発実施計画」があったがほとんどNHKのために行われたようなものだ。
これも事前に電子化された原稿がある場合だけで緊急放送には応えられない。
ラビット 記
-----------------------------------------------
幅広い仕事でNHKの放送を支えている当社。お任せするのは、耳の不自由な方に生放送番組を楽しんでいただくために日本語字幕を制作する仕事です。スポーツ中継や情報番組など番組ごとに担当し、先輩社員がサポートします。
★生放送番組に日本語字幕がつけられるまで★
≪放送前≫
番組のリハーサルVTRを再度、字幕用にアナウンサーが読み直し、それを音声認識システムで、自動的に字幕化していきます。ただ、100%正しく字幕が表示されるわけではないため、誤変換された言葉や読みにくいものなどを事前に修正します。さらに、台本をもとにシステムに未登録の語彙入力も担当します。
≪放送中≫
オンエア中のアナウンサーやナレーションの言葉を、生字幕用に別のアナウンサーが話し直したり、簡潔に要約したりした音声をシステムで認識して、わかりにくいものをリアルタイムで修正します。放送の最前線に立つ緊張感のある業務です。
≪放送後≫
次回の放送に向けて、システムのメンテナンスを行ないます。本番中にシステムが反映できなかった情報をひとつずつ入力してください。
音声認識技術による字幕制作についてですが、本当は、この分野の専門家がコメントするのが一番よいのですが、私の理解している範で、分かるところを書いておきます。
まず、現状の音声認識の技術では、
不特定の話者の不特定のトピック(話題)での認識はかなり厳しい、つまり、実用になるレベルではないということです。もっと平たく言うと、システムにとって、誰かわかないけど誰かが、どんな事が話題になるのか予測がつかないような事を話をする状況では、音声を自動的に文字にするのは難しいです。また、複数の話者が重なってしゃべる、とか、背景の音、雑音があると、とたんに難しくなります。
ですので、例えばNHKが大相撲の中継で、音声認識技術をつかって字幕を生で制作していますが、リスピーク方式といわれます。実況のアナウンサーとは、別の字幕のためのアナウンサー(複数名、字幕スタッフと呼ばれ、番組の最初に字幕にて紹介されます)が、実況とは別にマイクに入力をして、システムがそれを認識して字幕とするものです。
このシステムを上手く動かすためには、特定の話者(この場合、決まったアナウンサー)が、特定の話題(大相撲、関取名や決まり手などは事前にシステムに学習をさせておく)について、マイクにきれいに音声が入る環境が必要だと理解しています。
ですので、現状の音声認識技術は、地震のような緊急の場合の字幕作成には、使えないと思います。つまり、緊急時には人手を使う字幕作成でないとやれないのです。
人手にしろ、音声認識技術を使ったシステムにしろ、どれだけのコストがかかっているかは、放送事業者でないと分からないでしょう。
長くなりましたが、私のように少しでも字幕関係の研究をしているものが、分かる範囲で、ここまでは出来て、ここからは出来ないと言うことは大事だと思っています。また、テレビ番組に関しては、やはり、制作現場の制約などもあるでしょうから、字幕制作を本当に進めるには、字幕の研究者、制作者、利用者などの関係者が一堂に集まって、どうして行くべきなのかを情報交換、話し合いをすべきでは思います。
いずれにしろ、ご指摘のとおり、NHKにおいて、緊急時の放送で字幕が付いていないのは、大いに改善すべきです。緊急時の放送に対する字幕付与は、障害者の人権にもかかわることですし、障害者人権条約にいう「合理的配慮」に当然当たることだと思います。
音声認識技術の利用出来る内容というのはあると思いますし、その運用を日々努力されているNHKや技術者のご苦労には感謝しています。
問題は、緊急時の字幕放送の実施に向けて何が課題でどういう対策が必要かを明らかにすることです。
NHK自身が「高度のスキルを持つ入力者の確保、字幕制作技術要員の確保」がネックと言っているわけですから、これに変わる方法を考えなくてはなりません。
「現状の音声認識技術は、地震のような緊急の場合の字幕作成には、使えないと思います。つまり、緊急時には人手を使う字幕作成でないとやれないのです。」と専門家の方が言ってくださればその方向で具体的に問題を解決する必要があります。
「字幕の研究者、制作者、利用者などの関係者が一堂に集まって、どうして行くべきなのかを情報交換、話し合いをすべき」ですね。
技術的なことと経費などの政策的なことを区別して整理する必要があります。現場では必要と思っても政策判断をする訳にはいかないので、経営者の参画も必要です。