極東ブログで見たので、便乗。
いつも勝手に利用させてもらってます…finalventさん。
一応、これまで書いたグーグル関連の記事。
グーグルの検索能力を実感してみた
専門家は正しい知識を啓蒙しているか
google検索の謎?
私の「こころ」は有限世界なのか?~その4
「いい国」で検索すると・・・・
グーグルについて何か書くと、割と早い時期に発見されて、変更されていると思う。何か改良点が見つけ出せるんだろう、きっと。実態はよく判らないのですけどね。例えば「格差社会」の検索結果は、数日後には件数が大幅に減少し、ランクも勿論大きく変わっていた。今では、トップページに来てるのは新聞記事関係が多く、私のランクは橘木先生に抜かされてしまった(当然か)が、トップ10位内に残っている。しかし、内田樹先生の記事は深い樹海(笑)に埋もれたようだ。namiさんも何処かに埋もれてしまったみたい。これが何故なのか、全くの不明。あと、山田昌弘先生の本さえも、トップから漏れてるね。元々は橘木先生の本よりも有名であったハズなのに・・・ちょっと気の毒。
またいい加減な推測を書いておく。
グーグルにとっての「大きな壁」というのが存在しているのだろうと思う。それは、彼らが英語圏に起源を持つからじゃないかと思う。
つまり、検索システムを作り上げてきた過程で、基本的には「アルファベット」を扱うことが出発点で、それに合うシステムを持っていれば良かったのだろう。「英語の単語」というのは、アルファベットの羅列である。文書の中にキーワードを探し出したり、言葉ごとの分類などが比較的容易なのだろうと思える。
ところが、「日本語」というのは厄介だ。漢字があるからね。アルファベットなら大文字小文字合わせて52個(つまりトランプと同じだ、ジョーカー以外だけど)だけ識別しておけばいい。でも漢字は難しいのではないかと思う。種類がずっと多いからだ。日本語のイヤなところは、これ以外にも「ひらがな」「カタカナ」とか英単語交じりの文章などがボロボロ出てくる。なので、検索しづらいのと、分類すべき文字がとても多くなるだろう、ということかな。グーグルが特に意識しているのは、「漢字」なんだろうな、とは思う。それは検索市場のデカさで考えると、日本と中国で見込める将来の収入となればそりゃ・・・兎にも角にもデカいであろうな、と。米国以外の英語圏とか、ヨーロッパなんかの「細々した国の言語」なんかはあんまり気にするほどでもないだろう、みたいな。ロシア語にしても、アルファベットみたいなのを用いるので英語と似てるしね。でも、「漢字圏」はちょっと違う。一筋縄では行かなかったのだろう、きっと。英単語ならばこんなに簡単に「こんなことができちゃうよ」ということなのに、これが日本語や中国語になると「思ったほどでない」ということになってしまうのかも。
「質問文形式」のような検索能力なんかだと、結構落ちるのかも。米国(英語)だと、質問文のまんまで「かなりイイ線行ってる答え」に辿り着けるのかもしれないが(試してみたことがないのでどうなのかは知らない)、日本語とかで「質問文」形式で入れても、思ってる(期待している)よりもヘンなのが検索されてしまったりすることが多いような気が・・・。現在のところ、「キーワード」形式の検索ならば、漢字の熟語とか何とかは、かなり良くなってきたのだろうけど、単語指定が一つであったりすると(格差社会、みたいに)検索者が求めているものが「探せなかったり」とか、あるかもしれない。掲示板とかブログのコメント欄程度に書かれている、「殆ど役立たない」情報までも「単語が書いてある」というだけで探し出してきちゃったりするとか。なので、検索者が「選択する言葉」をうまく考えて組み合わせると、結構いいところまで「絞り込める」のだが、こうした検索語の「組み合わせが苦手」とか、「別ないい言葉を思いつかない」とか(その為に、幾つかの組み合わせサンプルみたいなのが表示されているんだろうと思う)、そういうのが割りとあるんじゃないかな、と。どうなんでしょうか?
<休憩所:
関係ないが、「ひょっとして~~?」という表示が「大きなお世話」と思うことがある。「全然ひょっとしないんだよ!!」と心の中で叫ぶ。グーグルの探し出してきた一覧がろくでもない結果ばかりで、「使えねー、グーグル、ダメじゃん」ってこともある。こっちは間違ってないんだYO!と思っても、グーグルは「違うんじゃないの?」と先頭に余計な表示をしてくれるからね(笑)。多分、普通はあまり用いられない専門的な用語なんかの場合に出てくるような気がした。主に略号とか…かな。いちいち覚えてられないので、どんなケースだったか忘れた。>
元来「記号(文字)を捜す」ことを基本的システムにしていたのだろうと思うけど、それを変えようとしているのであろうな、と。前にちょっと触れたのだが(参考記事)、ある特定物質(=キーワード)の存在を探知することは可能なのだが、そこから「意味」とか「文脈」を探知することはできない。更に、先日意識の記事で書いたように、特定物質を「レセプター」で探知できるシステム自体は、「うまい」という感覚を「書き込む」「表現する」ということができない。でも、人々が知りたいことの多くは、「カプサイシン」そのものではなく、「辛い食べ物」とか「辛子を使った料理」とか「超美味い辛子料理の店」とかそういうようなことなんだろうな、と。その質問形式にランク付け可能になるには、漢字圏では「試行錯誤」中なのかもな、ということです。
本気で「マザーコンピュータ」を目指しているかもしれないですね。今は個人が検索語を指定し、解答結果一覧の中から「自らが判断」し最適と思えるものを選び、「最終解答」を得ている。しかし、アニメのような世界であれば、人間が質問すれば即座に「解答」を出すのがコンピュータだ。判断も最適解選択・抽出もコンピュータが行う。現在のところ、グーグルにはこれができない。そこで、「人間」をもっと学ぶ必要がある、ということなんだろう。
いつも勝手に利用させてもらってます…finalventさん。
一応、これまで書いたグーグル関連の記事。
グーグルの検索能力を実感してみた
専門家は正しい知識を啓蒙しているか
google検索の謎?
私の「こころ」は有限世界なのか?~その4
「いい国」で検索すると・・・・
グーグルについて何か書くと、割と早い時期に発見されて、変更されていると思う。何か改良点が見つけ出せるんだろう、きっと。実態はよく判らないのですけどね。例えば「格差社会」の検索結果は、数日後には件数が大幅に減少し、ランクも勿論大きく変わっていた。今では、トップページに来てるのは新聞記事関係が多く、私のランクは橘木先生に抜かされてしまった(当然か)が、トップ10位内に残っている。しかし、内田樹先生の記事は深い樹海(笑)に埋もれたようだ。namiさんも何処かに埋もれてしまったみたい。これが何故なのか、全くの不明。あと、山田昌弘先生の本さえも、トップから漏れてるね。元々は橘木先生の本よりも有名であったハズなのに・・・ちょっと気の毒。
またいい加減な推測を書いておく。
グーグルにとっての「大きな壁」というのが存在しているのだろうと思う。それは、彼らが英語圏に起源を持つからじゃないかと思う。
つまり、検索システムを作り上げてきた過程で、基本的には「アルファベット」を扱うことが出発点で、それに合うシステムを持っていれば良かったのだろう。「英語の単語」というのは、アルファベットの羅列である。文書の中にキーワードを探し出したり、言葉ごとの分類などが比較的容易なのだろうと思える。
ところが、「日本語」というのは厄介だ。漢字があるからね。アルファベットなら大文字小文字合わせて52個(つまりトランプと同じだ、ジョーカー以外だけど)だけ識別しておけばいい。でも漢字は難しいのではないかと思う。種類がずっと多いからだ。日本語のイヤなところは、これ以外にも「ひらがな」「カタカナ」とか英単語交じりの文章などがボロボロ出てくる。なので、検索しづらいのと、分類すべき文字がとても多くなるだろう、ということかな。グーグルが特に意識しているのは、「漢字」なんだろうな、とは思う。それは検索市場のデカさで考えると、日本と中国で見込める将来の収入となればそりゃ・・・兎にも角にもデカいであろうな、と。米国以外の英語圏とか、ヨーロッパなんかの「細々した国の言語」なんかはあんまり気にするほどでもないだろう、みたいな。ロシア語にしても、アルファベットみたいなのを用いるので英語と似てるしね。でも、「漢字圏」はちょっと違う。一筋縄では行かなかったのだろう、きっと。英単語ならばこんなに簡単に「こんなことができちゃうよ」ということなのに、これが日本語や中国語になると「思ったほどでない」ということになってしまうのかも。
「質問文形式」のような検索能力なんかだと、結構落ちるのかも。米国(英語)だと、質問文のまんまで「かなりイイ線行ってる答え」に辿り着けるのかもしれないが(試してみたことがないのでどうなのかは知らない)、日本語とかで「質問文」形式で入れても、思ってる(期待している)よりもヘンなのが検索されてしまったりすることが多いような気が・・・。現在のところ、「キーワード」形式の検索ならば、漢字の熟語とか何とかは、かなり良くなってきたのだろうけど、単語指定が一つであったりすると(格差社会、みたいに)検索者が求めているものが「探せなかったり」とか、あるかもしれない。掲示板とかブログのコメント欄程度に書かれている、「殆ど役立たない」情報までも「単語が書いてある」というだけで探し出してきちゃったりするとか。なので、検索者が「選択する言葉」をうまく考えて組み合わせると、結構いいところまで「絞り込める」のだが、こうした検索語の「組み合わせが苦手」とか、「別ないい言葉を思いつかない」とか(その為に、幾つかの組み合わせサンプルみたいなのが表示されているんだろうと思う)、そういうのが割りとあるんじゃないかな、と。どうなんでしょうか?
<休憩所:
関係ないが、「ひょっとして~~?」という表示が「大きなお世話」と思うことがある。「全然ひょっとしないんだよ!!」と心の中で叫ぶ。グーグルの探し出してきた一覧がろくでもない結果ばかりで、「使えねー、グーグル、ダメじゃん」ってこともある。こっちは間違ってないんだYO!と思っても、グーグルは「違うんじゃないの?」と先頭に余計な表示をしてくれるからね(笑)。多分、普通はあまり用いられない専門的な用語なんかの場合に出てくるような気がした。主に略号とか…かな。いちいち覚えてられないので、どんなケースだったか忘れた。>
元来「記号(文字)を捜す」ことを基本的システムにしていたのだろうと思うけど、それを変えようとしているのであろうな、と。前にちょっと触れたのだが(参考記事)、ある特定物質(=キーワード)の存在を探知することは可能なのだが、そこから「意味」とか「文脈」を探知することはできない。更に、先日意識の記事で書いたように、特定物質を「レセプター」で探知できるシステム自体は、「うまい」という感覚を「書き込む」「表現する」ということができない。でも、人々が知りたいことの多くは、「カプサイシン」そのものではなく、「辛い食べ物」とか「辛子を使った料理」とか「超美味い辛子料理の店」とかそういうようなことなんだろうな、と。その質問形式にランク付け可能になるには、漢字圏では「試行錯誤」中なのかもな、ということです。
本気で「マザーコンピュータ」を目指しているかもしれないですね。今は個人が検索語を指定し、解答結果一覧の中から「自らが判断」し最適と思えるものを選び、「最終解答」を得ている。しかし、アニメのような世界であれば、人間が質問すれば即座に「解答」を出すのがコンピュータだ。判断も最適解選択・抽出もコンピュータが行う。現在のところ、グーグルにはこれができない。そこで、「人間」をもっと学ぶ必要がある、ということなんだろう。