たそかれの散策

都会から田舎に移って4年経ち、周りの農地、寺、古代の雰囲気に興味を持つようになり、ランダムに書いてみようかと思う。

障がい支援としてのAI <記者の目 視覚障害者とAIメガネ>を読んで

2018-02-06 | AI IT IoT

180206 障がい支援としてのAI <記者の目 視覚障害者とAIメガネ>を読んで

 

世の中ちょっとした異変のような状況ですが、足下を見れば昨日も、今日も、去年も、大きな変化はなかったような気もします。心のうちは平穏なりでしょうか。今年も、あるいは10年前、半世紀前も、なにかと騒がしいこと、変化があったように思えますが、どうとらえるかによって、大きいとも小さいともいえるでしょう。わずかな変化に気持ちが動くこともあれば、世の中がどう騒ごうと、それが重大かどうかは自分自身の見方や度量かもしれません。

 

相変わらず、株価の急激な下落、景気への影響が大きなニュースになっていますが、昨日も指摘しましたが、これを一時的なものと見る解説も少なくないですが、私にはとてもそう思えないですね。それより最近の米軍だけでなく自衛隊の最先端技術を備えたヘリコプターの事故の方が気になります。軍事力に安全保障を委ねることの不安定性を露見しているようにも見えるのです。また異例なほどの寒波の長期停滞と豪雪に襲われている状況も、気象変動の兆候ではないかと気になります。

 

少しはいい話がないかと毎日記事を覗いていると、<記者の目視覚障害者とAIメガネ 周囲知る大きな力に=岩下恭士(デジタルメディア局)>に視点がとまりました。

 

岩下記者は全盲だそうで、障がいをもつ立場からのアプローチとして貴重です。

 

本題に入る前に、私は最近、ネット上の文書を「音声読み上げ」機能を使ってときどき楽しんでいます。読むのが疲れるということもありますが、奇妙なAI音声で古典を読ませると、これがなかなか面白いのです。というか、意外と結構いけるのです。現代文ではちょっと違うのではとすぐわかりますが、古典文だとなにかおもしろく感じるのです。ともかく意外としっかりと丁寧に読んでいます。むろん声優や俳優あるいはアナウンサーによる朗読の情緒や哀愁のある読み方には遠く及びませんが、耳から入る情報を好む傾向のある私にはなかなかおつなものです。

 

いくつか改良の必要性はあるでしょうが、学習効果が優れているAI頭脳からすれば、数年後には声優とまではいかなくても、普通の人レベルの抑揚なり、専門用語の読み込みなり、間のとり方など、的確に学習して習得してしまうような気がします。

 

で記事を紹介しながら、本題に入ります。

視覚障害者である岩下記者の視点で、AIカメラの試験的運用を追っています。

<内蔵カメラが認識した文字情報を音声に変換するAIメガネもその一つだ。国内外のメーカーが名乗りを上げるなか、実際に装着して街中を歩く体験会がこのほど横浜市内で開かれ参加した。視覚を補う技術の進展を実感するとともに、乗り越えるべき課題も見えてきた。>というのです。

 

開発者は、<父親が脳梗塞(こうそく)に倒れて文字が理解できない読字障害(ディスレクシア)に苦しんだ。>ことを契機に、父親のために、<音声は理解できることからOCR(光学式文字認識)で文字情報を読み取り、それを読み上げる装置>を開発し、<社名と製品名は関西弁の父親と「音」をかけて「オトン・グラス」と名付けた。>というのです。

 

「オトン・グラス」とはおもろいネーミングですね。

記者がそれをつけた写真も掲載されていますが、<メガネ型で、視点と同位置にあるカメラで撮影した文字を文字認識技術でテキストデータに変換、音声として読み上げる仕組み。IT大手グーグルやアマゾンの音声AI技術が使われている。「当初は読字障害の人たちを想定して開発したが、目の不自由な人たちにも有益なツールになると確信した」(島影さん)という。昨年から市販されており、本体価格は40万円。>

 

ちょっと高額ですが、普及すればすぐに安くなるのではないかと思いますし、現在無料アプリで使われている音声読み上げや、音声翻訳などと、スキャナーのアプリとをうまく合体すれば、無料アプリで登場するといったこともあるかもしれませんね。

 

オトン・グラスの使い方は

<まず目の前から40センチほど離して印刷物を持つ。読み取りボタンを押すと、5秒ほど処理中を知らせる警告音が流れたあと、流ちょうな日本語で文書の読み上げが始まる。英語にも対応する。>というのですから、メガネ型でなければ、現在でもすぐにスマホのアプリで対応できそうな印象すらもちます。

 

岩下記者は体験した結果、課題をすぐに見つけています。

<全盲者の場合、最大のネックはどこに文字が書かれているのか分からないことだ。晴眼者が同行して店頭の品書きなどを見つけて誘導してもらう必要がある。理想的なのはメガネが捉えた文字を瞬時に読み上げるライブ中継だ。そうすれば一人歩きをしながら目の前にある住所表示も確認できそうだ。>

 

そうですね、文字を認識して、それを音声で読み上げることを標準機能としているわけですから、問題の文字情報がどこにあるかを発見することについての解決策を提示できていないとオトン・グラスとしては使用範囲が限られることになります。

 

AIによる自動運転についての技術開発競争が激しい中、この技術の中核はまさに対象の立体的認識とその情報を分析して走行方法を選択するなどして、目的地にまで到達するわけで、この中には現在ナビゲーションで使われている一定の対象ごとに音声による案内なんてことは簡単にできることでしょう。

 

他方で、AIによるロボットでは、凹凸のある場所を遠隔操作で走行したり、調査したりすることができることは、福島第一原発の廃炉事業にあたって、現場でその機能は相当のレベルに達していることが証明されています。

 

これらを綜合した視覚障害者用のメガネであれば、いずれ立体的な情報の中で、視覚障害者が段階的に活動範囲を広げることができるように、適切な音声誘導、たとえば階段の方向・位置、始点終点、ホームでの位置関係などを情報提供して、視覚障害者がより安全で快適にまちの中を自由に歩き回ることができるようになるのではないかと思うのです。

 

ところで、著作権法上の問題が指摘されています。

グーグルのGPS機能に連携して(おそらくそういうことを言っているのでしょうか)、音声ガイダンスでクラウドデータを使うことでより利便性を高めることができることを指摘しつつ、法的問題が指摘されています。まず利便性について言及しています。

<たとえば、商店や路上で収集した文字データを活用するに当たっての課題だ。どこそこにこういう看板が出ているなどといった情報をクラウド上のデータベースに蓄積し、AIメガネを装着した視覚障害者らが共有できるようにすれば、便利なことこの上ない。百貨店の前を通過する際「○○デパートの看板。まもなく通過します」などと音声ガイダンスが聞こえれば、視覚障害者にとって初めての場所であっても心理的負担は軽減する。点字ブロックやエレベーターの場所、危険な場所なども共有できれば事故防止にもつながる。

 

しかし、こういった画像データの著作権や、プライバシー問題を指摘されています。

 <そうした情報の元になるのは画像データだ。情報を蓄積していく際、取得したデータの著作権や、プライバシー問題も横たわる。>

 

<体験会にも参加した、著作権問題に詳しい水野祐弁護士(37)は指摘する。「画像データには、第三者の顔、個人情報や、著作権のある広告物などが映り込む可能性がある。IT大手のグーグルがAIメガネの開発を志向しながら断念したのもそうした法的問題が要因の一つだったとも言われている」。その上でこう説く。「障害者のニーズのある装置が開発されたなか、それを利用できるような適切なルールを議論し始める時期ではないか」>

 

たしかにこういったデータが、クラウドのデータに蓄積され、商業利用されれば、それらが広告物などの場合著作物であることから著作権侵害の問題が生じるでしょう。

 

グーグルがストリートビューを全世界で展開してきましたが、この場合もプライバシーを侵害しないようさまざまな配慮をしていますね。著作権問題はどう対処しているのか画面上はわかりませんが、一定のルールの下に利用しているのではないかと思います。

 

たしかにグーグル的な商業利用を前提とすれば、AIカメラもプライバシーや著作権に配慮したルール作りが必要でしょう。しかし、AIメガネを個人的な利用として使える技術的な工夫が不可能かの検討もしてもらいたいと思います。とはいえ、クラウド上のデータ累積して、AI機能を使って、GPSと連携して、あるいは3D画像化が個人の視覚野画像のようになれば、そこで、たとえば視覚障害者がこういうものがあるかと聞くと、それはどこそこにあるといった回答もできたり、凹凸の状況も事前に知らせてくれて、危険を回避することが容易になるということになれば、この限りで公益性が高いわけで、そのルール作りは柔軟な視点で行ってもらいたいですね。むろん障がい者用メガネという限定付き利用といった縛りをつけるとかできればいいのですが。

 

なお、文化庁の<著作物が自由に使える場合>は、一般的な内容ですが、現代の著作権利用のあり方に対応しているか、見直して良いのではないかと思うのです。

 

今日は少し長引きました。このへんでおしまいです。また明日。


空海に学ぶ(4) <第4 唯端腕無我心>と<「人体」”脳”すごいぞ!ひらめきと記憶の正体>とでひらめきは?

2018-02-06 | 空海と高野山

180206 空海に学ぶ(4) <第4 唯端腕無我心>と<「人体」”脳”すごいぞ!ひらめきと記憶の正体>とでひらめきは?

 

空海の十住心論は素人ではとても理解不能と思って、吉村氏の・・・仏教入門という言葉に誘われて、第一心から第三心という普通の人の段階まではまがりなりに、読んできましたが、第四心になった途端、もうちんぷんかんぷんで、表面的な文字を追っても頭からすぐにすり抜けていきます。紹介なんてもってのほか、吉村氏の言葉を引用しても私自身が理解できないままですので、読者も宗教学などの心得のある方は別として、意味不明になるかもしれません。

 

吉村氏は、十住心論について、はじめの概説で、その概要を次のように説明しています。これを飛ばしたまま、第一心から入ったので、一応おさらいのつもりで、戻ってみます。

 

<十住心は、大別すると、対象を実体視する私たちの心に合わせた段階(第一~第三)と、仏教固有の段階(第四~)に分けることができます。さらに後者は、それぞれの関心や理解の度合いに合わせて、実体視からの解放を目指す段階(第四~第七)と、すでに空の境地を体験した者に現われる仏の世界(第八・第九)に分かれます。>と述べています。

 

 

そして、最後の第十心について、<言葉は対象を実体と捉える働きそのものに関わっているため、実体視から完全に解放された境地は、言葉で表わすことができません。それを言葉を介さずに直接示すのが第十の密教です。それまでの教えが言葉を用いて言葉を超えた境地に導く教え(顕教)であるのに対して、体験がなければ言葉だけで理解することはできないため、秘密の教え、密教とされます。>

 

これだけではただ、10段階に分かれることと、それをさらに2つに分け、最初は俗の世界の認識のような印象、次は僧侶の世界で、それをさらに3つに分け、2つは言葉で理解でき、最後は言葉を超えた段階(最澄はその手前までたどり着いたのでしょうか)と分けているようです。

 

こういっても何が何だかわかりませんと自分でも感じています。そして仏教の世界、戒律を実践する僧侶の世界なのでしょうか、吉村氏が引用する多くの仏教用語は勉強不足でわかりませんので、第四は彼の現代的な言葉による解説を少し引用してみたいと思います。

 

なお、吉村氏は、この第一心から第十心まで、それぞれについて上記の後わかりやすい言葉で解説しているのですが(言葉はわかった気がしても真の意味は理解できていません)、あえて省略しました。簡単に理解したい気になれる解説なので、いずれ取りあげたいと思います。

 

吉村氏は、第一から第三までの最初の段階について、「苦しみを減らしていく段階」として、次の第四から第七までを「苦しみを根源から断ちきろうとする段階」として、第四心の説明に入ります。

 

「第四 唯蘊無我心」(ゆいうんむがしん)が第四住心ですが、これまたよくわかりません。この後に「声聞(しょうもん)の心」となっています。

 

後の解説を読んでいてもなかなか頭に入ってきませんので、最初の解説を引用します。

 

「私たちを構成する五蘊(色・受・想・行・識)は実体ですが、それによって構成された私は実体ではないと考えて、輪廻から解放された解脱の境地を目指します。」

 

この解説も不思議の世界です。自分を構成する要素は実体なのに、構成された自分自身は実体ではないというのです。わかりましょうか。私がこのブログでときおり般若心経の色即是空をぽつんと付言することがありますが、そのときそんな印象を持つのです。でもほんとうはよくわかりません。

 

吉村氏は、「私は実体ではなく無我である」との見出しで、釈尊の教えが編纂され広がっていく経緯や内容を説明しているのですが、基本は見出しの言葉かなと思うのです。強いて言えば、過去との連続する中で私を考えるのかもしれないと思うのですが、よくわかりません。

 

次の見出しでは「輪廻の苦しみの根源を断ち切る」として、いろいろ仏経典の世界が書かれていますが、要は輪廻からの離脱を言っているのでしょうか。

 

続く「四聖諦と四向四果」はまったく歯が立ちませんので省略です。

 

さらに続く「比丘の戒律」、「妻帯している僧侶は比丘ではない」「仏教は国家の役に立つか」とのそれぞれの筋書きは、内容は割合わかりやすいものの、解説の意図と第四住心の意味合いがどうも整合性がとれないというか、素人には「唯蘊無我心」に近づくための解説なのかどうか、よく理解できないでいます。

 

ま、お手上げ状態というのが真相です。一時間もかけないで読んでいるだけですから、わかろうというのが傲慢かもしれません。

 

結局、録画していて気になっていた<NHKスペシャル「人体」”脳”すごいぞ!ひらめきと記憶の正体>を見て、気持ちを休めました。

 

今回は「脳」という訳がわからないものの正体に先端科学がどこまで解明できているのか、その一端を映像技術を使ってで簡便に理解できるようにされていたようです。

 

神経細胞が1000億個もあって、それがなにかを見ることで、視覚野から脳全体に0.2秒という瞬時に影響を与える映像は興味深かったです。電気信号がメッセージ物質を各細胞間に伝達する流れは見事でした。

 

ある意味では人は何かを見ることにより脳に多大な刺激を与え、それが側頭部、前頭前野に伝わり、感情に影響し、コントロールされている状況は、なにかヒントを感じます。

 

で番組では、脳の興味深い働きの要因というか、条件について、特にアプローチしていたかと思います。発見とか、創造的な思考とかが人間の重要な機能の一つですし、人類発展の契機となるものですが、これは、何も考えないことで、「ひらめき」が生まれるというのです。デフォルト・モード・ネットワークと呼んでいましたね。

 

ぼっとしている状態、そこで最も脳細胞が活発化しているという映像が示されていました。意識的に考えたりしていても、脳細胞が活発化したりして、創造的な思考が生まれるわけではないようです。

 

この後の文脈がちょっと見落としたのかわかりませんが、海馬の中にある歯状回というところで、どんどん新しい細胞が生まれていき、ある新しい記憶はそこで生まれた細胞によって作られたルートで記憶の特定のボックスに保管されていくそうです。その歯状回での記憶を保存する細胞は高齢になっても生まれてきて、おそらく死ぬまで生成するようです。

 

とすると、認知症になることを防ぐ、あるいはその進行を抑える鍵がこの歯状回にありそうだということのようです。

 

と長々と、人体シリーズの脳について書いてきましたが、本題との関係で言えば、もしかして人間が意識してなにかをやろうと考えているときは、本質にはたどり着けない、あるいはひらめきという、本質を解明する力は生まれないのではないかと、そう感じたのです。

 

だから、日永ぼんやりと、ロッキングチェアに揺られながらなにも考えず、自然の様を眺めるでもなく、ボッとしていることが大事であったりするのかなとも思ってしまいました。

 

いやいや、京都の哲学の道があるように、またカントが毎日歩いた道のように、歩くことで仏教の本質、あるいは人間の本質に近づくような思考の働きが生まれるのかもしれません。

 

とはいえ、私は昔カントが歩いたと言われる道も歩いたことあったり、京都の哲学の道は散策路としてよく歩きましたが、いずれもなまけ者の感覚を味わったというか、ただ雰囲気を味わっただけに終わったようです。

 

吉村氏の仏教入門はおそらく私が理解できないまま終わってしまいそうですが、人体シリーズはなんとなく理解しやすいというか、とりわけボッとしていることを積極的に評価してもらったのはありがたいことです。