180206 障がい支援としてのAI <記者の目 視覚障害者とAIメガネ>を読んで
世の中ちょっとした異変のような状況ですが、足下を見れば昨日も、今日も、去年も、大きな変化はなかったような気もします。心のうちは平穏なりでしょうか。今年も、あるいは10年前、半世紀前も、なにかと騒がしいこと、変化があったように思えますが、どうとらえるかによって、大きいとも小さいともいえるでしょう。わずかな変化に気持ちが動くこともあれば、世の中がどう騒ごうと、それが重大かどうかは自分自身の見方や度量かもしれません。
相変わらず、株価の急激な下落、景気への影響が大きなニュースになっていますが、昨日も指摘しましたが、これを一時的なものと見る解説も少なくないですが、私にはとてもそう思えないですね。それより最近の米軍だけでなく自衛隊の最先端技術を備えたヘリコプターの事故の方が気になります。軍事力に安全保障を委ねることの不安定性を露見しているようにも見えるのです。また異例なほどの寒波の長期停滞と豪雪に襲われている状況も、気象変動の兆候ではないかと気になります。
少しはいい話がないかと毎日記事を覗いていると、<記者の目視覚障害者とAIメガネ 周囲知る大きな力に=岩下恭士(デジタルメディア局)>に視点がとまりました。
岩下記者は全盲だそうで、障がいをもつ立場からのアプローチとして貴重です。
本題に入る前に、私は最近、ネット上の文書を「音声読み上げ」機能を使ってときどき楽しんでいます。読むのが疲れるということもありますが、奇妙なAI音声で古典を読ませると、これがなかなか面白いのです。というか、意外と結構いけるのです。現代文ではちょっと違うのではとすぐわかりますが、古典文だとなにかおもしろく感じるのです。ともかく意外としっかりと丁寧に読んでいます。むろん声優や俳優あるいはアナウンサーによる朗読の情緒や哀愁のある読み方には遠く及びませんが、耳から入る情報を好む傾向のある私にはなかなかおつなものです。
いくつか改良の必要性はあるでしょうが、学習効果が優れているAI頭脳からすれば、数年後には声優とまではいかなくても、普通の人レベルの抑揚なり、専門用語の読み込みなり、間のとり方など、的確に学習して習得してしまうような気がします。
で記事を紹介しながら、本題に入ります。
視覚障害者である岩下記者の視点で、AIカメラの試験的運用を追っています。
<内蔵カメラが認識した文字情報を音声に変換するAIメガネもその一つだ。国内外のメーカーが名乗りを上げるなか、実際に装着して街中を歩く体験会がこのほど横浜市内で開かれ参加した。視覚を補う技術の進展を実感するとともに、乗り越えるべき課題も見えてきた。>というのです。
開発者は、<父親が脳梗塞(こうそく)に倒れて文字が理解できない読字障害(ディスレクシア)に苦しんだ。>ことを契機に、父親のために、<音声は理解できることからOCR(光学式文字認識)で文字情報を読み取り、それを読み上げる装置>を開発し、<社名と製品名は関西弁の父親と「音」をかけて「オトン・グラス」と名付けた。>というのです。
「オトン・グラス」とはおもろいネーミングですね。
記者がそれをつけた写真も掲載されていますが、<メガネ型で、視点と同位置にあるカメラで撮影した文字を文字認識技術でテキストデータに変換、音声として読み上げる仕組み。IT大手グーグルやアマゾンの音声AI技術が使われている。「当初は読字障害の人たちを想定して開発したが、目の不自由な人たちにも有益なツールになると確信した」(島影さん)という。昨年から市販されており、本体価格は40万円。>
ちょっと高額ですが、普及すればすぐに安くなるのではないかと思いますし、現在無料アプリで使われている音声読み上げや、音声翻訳などと、スキャナーのアプリとをうまく合体すれば、無料アプリで登場するといったこともあるかもしれませんね。
オトン・グラスの使い方は
<まず目の前から40センチほど離して印刷物を持つ。読み取りボタンを押すと、5秒ほど処理中を知らせる警告音が流れたあと、流ちょうな日本語で文書の読み上げが始まる。英語にも対応する。>というのですから、メガネ型でなければ、現在でもすぐにスマホのアプリで対応できそうな印象すらもちます。
岩下記者は体験した結果、課題をすぐに見つけています。
<全盲者の場合、最大のネックはどこに文字が書かれているのか分からないことだ。晴眼者が同行して店頭の品書きなどを見つけて誘導してもらう必要がある。理想的なのはメガネが捉えた文字を瞬時に読み上げるライブ中継だ。そうすれば一人歩きをしながら目の前にある住所表示も確認できそうだ。>
そうですね、文字を認識して、それを音声で読み上げることを標準機能としているわけですから、問題の文字情報がどこにあるかを発見することについての解決策を提示できていないとオトン・グラスとしては使用範囲が限られることになります。
AIによる自動運転についての技術開発競争が激しい中、この技術の中核はまさに対象の立体的認識とその情報を分析して走行方法を選択するなどして、目的地にまで到達するわけで、この中には現在ナビゲーションで使われている一定の対象ごとに音声による案内なんてことは簡単にできることでしょう。
他方で、AIによるロボットでは、凹凸のある場所を遠隔操作で走行したり、調査したりすることができることは、福島第一原発の廃炉事業にあたって、現場でその機能は相当のレベルに達していることが証明されています。
これらを綜合した視覚障害者用のメガネであれば、いずれ立体的な情報の中で、視覚障害者が段階的に活動範囲を広げることができるように、適切な音声誘導、たとえば階段の方向・位置、始点終点、ホームでの位置関係などを情報提供して、視覚障害者がより安全で快適にまちの中を自由に歩き回ることができるようになるのではないかと思うのです。
ところで、著作権法上の問題が指摘されています。
グーグルのGPS機能に連携して(おそらくそういうことを言っているのでしょうか)、音声ガイダンスでクラウドデータを使うことでより利便性を高めることができることを指摘しつつ、法的問題が指摘されています。まず利便性について言及しています。
<たとえば、商店や路上で収集した文字データを活用するに当たっての課題だ。どこそこにこういう看板が出ているなどといった情報をクラウド上のデータベースに蓄積し、AIメガネを装着した視覚障害者らが共有できるようにすれば、便利なことこの上ない。百貨店の前を通過する際「○○デパートの看板。まもなく通過します」などと音声ガイダンスが聞こえれば、視覚障害者にとって初めての場所であっても心理的負担は軽減する。点字ブロックやエレベーターの場所、危険な場所なども共有できれば事故防止にもつながる。 >
しかし、こういった画像データの著作権や、プライバシー問題を指摘されています。
<そうした情報の元になるのは画像データだ。情報を蓄積していく際、取得したデータの著作権や、プライバシー問題も横たわる。>
<体験会にも参加した、著作権問題に詳しい水野祐弁護士(37)は指摘する。「画像データには、第三者の顔、個人情報や、著作権のある広告物などが映り込む可能性がある。IT大手のグーグルがAIメガネの開発を志向しながら断念したのもそうした法的問題が要因の一つだったとも言われている」。その上でこう説く。「障害者のニーズのある装置が開発されたなか、それを利用できるような適切なルールを議論し始める時期ではないか」>
たしかにこういったデータが、クラウドのデータに蓄積され、商業利用されれば、それらが広告物などの場合著作物であることから著作権侵害の問題が生じるでしょう。
グーグルがストリートビューを全世界で展開してきましたが、この場合もプライバシーを侵害しないようさまざまな配慮をしていますね。著作権問題はどう対処しているのか画面上はわかりませんが、一定のルールの下に利用しているのではないかと思います。
たしかにグーグル的な商業利用を前提とすれば、AIカメラもプライバシーや著作権に配慮したルール作りが必要でしょう。しかし、AIメガネを個人的な利用として使える技術的な工夫が不可能かの検討もしてもらいたいと思います。とはいえ、クラウド上のデータ累積して、AI機能を使って、GPSと連携して、あるいは3D画像化が個人の視覚野画像のようになれば、そこで、たとえば視覚障害者がこういうものがあるかと聞くと、それはどこそこにあるといった回答もできたり、凹凸の状況も事前に知らせてくれて、危険を回避することが容易になるということになれば、この限りで公益性が高いわけで、そのルール作りは柔軟な視点で行ってもらいたいですね。むろん障がい者用メガネという限定付き利用といった縛りをつけるとかできればいいのですが。
なお、文化庁の<著作物が自由に使える場合>は、一般的な内容ですが、現代の著作権利用のあり方に対応しているか、見直して良いのではないかと思うのです。
今日は少し長引きました。このへんでおしまいです。また明日。