米シマンテックによれば2010年3月に観測したメールの9割が迷惑メール(スパム)で、そのうち17%が詐欺目的だった(日経BPニュース 4/16)。
迷惑メールの件名で最も多かったのは「空白」。件名が空白の迷惑メールが最も多かった、とも。
われわれが受信している迷惑メールで件名が空白なのは少ない。多い件名の種類も異なる。
シマンテックが観測しているメールは、ユーザーが不審に思って届けたものなのかも知れない。
われわれが迷惑メールだと思うのは自分が使っているメール・システムで振分けなどの設定をした後のものだから比較的少ないのかも知れない。
プロバイダーがブロックしてくれた迷惑メールは、念のためそのリストを送ってもらっているが、今まで1つもブロックしてくれなくてもよかったというものは無い。
リストの送信は依頼しなくても良かったようだ。
手元のメール・ソフトで迷惑メール・フォルダーに入っているものの数は、受信フォルダーに入っているものと大体同じくらい。
偶に、迷惑メール・フォルダーの中に、いつも受信し読んでいる知人からのメールが入っていることがある。
何故そのように仕分けされたのか、本文などを調べても理解できたことはない。
そういうことがあるから、手元のシステムでは自動的に迷惑メールを直ちに消したりしないように設定している。
受信数が多い人なら、そうはしていられないかも知れない。
迷惑メールの設定オプションでは、処理水準に「自動処理なし」、「低」、「高」などがある。
「低」と「高」の違いは確率的なものらしい。
その確率というのが何なのか、そこが問題。
古典的な確率の概念に対して、現代的な概念としてベイジアン確率というのがあって、ベイジアン・ネットワクーク・モデルとかで確率の計算を行うのが既に一般的らしい。
モデルそのものは大変簡単だが、単純な数値を用いた例題で手計算して見るといつも答えが合わない。
昔から暗算とか手計算とかは苦手だったが、最近はもっと酷い。
それはさておき、このモデルを最もよく使うのが迷惑メール処理のシステムらしい。
ベイズは18世紀の牧師で、事後確率を事前確率から計算する式を考案し、死後にラプラスが使ってから、その式を「ベイズの公理」とか「ベイズの定理」とか言うようになったようです。
しかし今でも「確率に事前も事後もない」と考える人たちが有ります。
データを母集団からの無作為抽出だと看做し、標本集団で計算した統計量を基に、母集団の統計量を推定したりするのが現代統計学だとしている人が、まだ日本では少なくない、とか。
現代の統計学は「ベイズ統計学」であって、われわれが学校などで習った統計学の近代と現代とは既に1世紀ぐらいシフトしているようです。
「ベイズ確率」を「主観的確率」と呼んでいる本も見かけます。
随分前から心理学の基礎実験では、確率マッチングの実験と言うのが行われていて、主観確率の概念を用いています。
被験者はゲームで利得を最大にするよう選択を求められ、計算すれば50%より少しでも公算が大きい方を選べば良いことは明らかなのに、反復試行していると次第に実験者が設定した確率に近い比率で選択するようになる、と。
被験者(ネズミでも該当する)はどっちが当たりか予測しており、主観確率を持っている、というのである。
確率は選択をすることで値が変化すると考える点で近代統計学あるいは近代確率論と異なり、ベイズ確率論と一致すると言って良いかも知れない。
ベイズ・ネットワーク・モデルは原因と結果の関係を推測するために、これからいろいろな領域で、もっと利用されることになると思われる。
迷惑メールの件名で最も多かったのは「空白」。件名が空白の迷惑メールが最も多かった、とも。
われわれが受信している迷惑メールで件名が空白なのは少ない。多い件名の種類も異なる。
シマンテックが観測しているメールは、ユーザーが不審に思って届けたものなのかも知れない。
われわれが迷惑メールだと思うのは自分が使っているメール・システムで振分けなどの設定をした後のものだから比較的少ないのかも知れない。
プロバイダーがブロックしてくれた迷惑メールは、念のためそのリストを送ってもらっているが、今まで1つもブロックしてくれなくてもよかったというものは無い。
リストの送信は依頼しなくても良かったようだ。
手元のメール・ソフトで迷惑メール・フォルダーに入っているものの数は、受信フォルダーに入っているものと大体同じくらい。
偶に、迷惑メール・フォルダーの中に、いつも受信し読んでいる知人からのメールが入っていることがある。
何故そのように仕分けされたのか、本文などを調べても理解できたことはない。
そういうことがあるから、手元のシステムでは自動的に迷惑メールを直ちに消したりしないように設定している。
受信数が多い人なら、そうはしていられないかも知れない。
迷惑メールの設定オプションでは、処理水準に「自動処理なし」、「低」、「高」などがある。
「低」と「高」の違いは確率的なものらしい。
その確率というのが何なのか、そこが問題。
古典的な確率の概念に対して、現代的な概念としてベイジアン確率というのがあって、ベイジアン・ネットワクーク・モデルとかで確率の計算を行うのが既に一般的らしい。
モデルそのものは大変簡単だが、単純な数値を用いた例題で手計算して見るといつも答えが合わない。
昔から暗算とか手計算とかは苦手だったが、最近はもっと酷い。
それはさておき、このモデルを最もよく使うのが迷惑メール処理のシステムらしい。
ベイズは18世紀の牧師で、事後確率を事前確率から計算する式を考案し、死後にラプラスが使ってから、その式を「ベイズの公理」とか「ベイズの定理」とか言うようになったようです。
しかし今でも「確率に事前も事後もない」と考える人たちが有ります。
データを母集団からの無作為抽出だと看做し、標本集団で計算した統計量を基に、母集団の統計量を推定したりするのが現代統計学だとしている人が、まだ日本では少なくない、とか。
現代の統計学は「ベイズ統計学」であって、われわれが学校などで習った統計学の近代と現代とは既に1世紀ぐらいシフトしているようです。
「ベイズ確率」を「主観的確率」と呼んでいる本も見かけます。
随分前から心理学の基礎実験では、確率マッチングの実験と言うのが行われていて、主観確率の概念を用いています。
被験者はゲームで利得を最大にするよう選択を求められ、計算すれば50%より少しでも公算が大きい方を選べば良いことは明らかなのに、反復試行していると次第に実験者が設定した確率に近い比率で選択するようになる、と。
被験者(ネズミでも該当する)はどっちが当たりか予測しており、主観確率を持っている、というのである。
確率は選択をすることで値が変化すると考える点で近代統計学あるいは近代確率論と異なり、ベイズ確率論と一致すると言って良いかも知れない。
ベイズ・ネットワーク・モデルは原因と結果の関係を推測するために、これからいろいろな領域で、もっと利用されることになると思われる。