朝日新聞の数理モデルは、単一データに頼る弱点を露呈。総選挙分析ライターの勝利は愛の深さによる。(ナッキー)
一つ前の記事は、総選挙結果を基準に、数理モデルとの差を記載しましたが、
ここでは、数理モデルの結果を基準に、総選挙結果との差を見ると次の通り。
1位 大島優子 : 2位 : 1
2位 指原莉乃 : 1位 : 1
3位 松井玲奈 : 7位 : 4
4位 渡辺麻友 : 3位 : 1
5位 山本彩 : 14位 : 9
6位 柏木由紀 : 4位 : 2
7位 篠田麻里子 : 5位 : 2
8位 松井珠理奈 : 6位 : 2
9位 板野友美 : 11位 : 2
10位 島崎遥香 : 12位 : 2
11位 渡辺美優紀 : 15位 : 4
12位 小嶋陽菜 : 9位 : 3
13位 宮澤佐江 : 10位 : 3
14位 高橋みなみ : 8位 : 6
15位 川栄李奈 : 25位 : 10
16位 峯岸みなみ : 18位 : 2
差の合計 54
次に、総選挙分析ライターさんの予想と総選挙結果を同じフォーマットで記載します。
1位 大島優子 : 2位 : 1
2位 篠田麻里子 : 5位 : 3
3位 渡辺麻友 : 3位 : 0
4位 指原莉乃 : 1位 : 3
5位 小嶋陽菜 : 9位 : 4
6位 柏木由紀 : 4位 : 2
7位 板野友美 : 11位 : 4
8位 松井玲奈 : 7位 : 1
9位 高橋みなみ : 8位 : 1
10位 松井珠理奈 : 6位 : 4
11位 山本彩 : 14位 : 3
12位 横山由依 : 13位 : 1
13位 島崎遥香 : 12位 : 1
14位 渡辺美優紀 : 15位 : 1
15位 宮澤佐江 : 10位 : 5
16位 高城亜樹 : 20位 : 4
差の合計 38
総選挙前5日間の数理モデルの上位16人の総選挙結果の差は、合計すると、54
総選挙開始前(速報発表前)に、当ブログの総選挙分析ライター氏が予想した上位16人の総選挙結果の差は、合計すると、38
対決の結果は、38対54で、総選挙分析ライターさんの圧勝。
投票期間は、5月21日10時から6月7日15時まで。
朝日の数理モデルは、ファンが投票中の最後の5日間のデータ。
総選挙分析ライターさんの予想は、5月19日と投票開始前。
本来なら、まさに投票しているデータが反映されると想定される「数理データ」の信頼性が高そうだが、何故負けたのか。
考えるうる一つ目の理由は、こちらの記事で紹介した「統計学の教科書」に載っているサンプルの偏りがあったと推察されます。
単一のデータは、母集団の傾向と一致しないというリスクが顕在化したと、私は分析しました。
AKB48のファンを長年やってる私は、松井玲奈が3位、山本彩が5位、川栄李奈が15位というのは、いかにもありそうな順位。この3人がこの順位なら、島崎遥香の10位は低すぎるんじゃない、とさえ思ってしまう。
でも、ツイッター・ブログを駆使するファンは、アイドル性の高い4人について、たくさん語るけれど、アーティスト性の高い、高橋みなみ・横山由依についてはあまり語らない。
「統計学の教科書」の例では、リテラリー・ダイジェスト(なぞれえ:ブログ・ツイッター)という単一データは共和党(なぞらえ:アイドル性の高いメンバー)を支持している人が多いが、リテラリー・ダイジェストを読んでいない(なぞれえ:ブログ・ツイッターをやっていない)人の多くが民主党(なぞらえ:パフォーマンス主体のメンバー)していた。
補足:NMBではアイドル性渡辺美優紀、パフォーマンス主体山本彩ですが、グループ全体では山本彩はアイドル寄りとして記載しています。
一方、総選挙分析ライターさんは、
昨年度の第4回選抜総選挙の順位、
グーグルプラスユーザー数の順位、
昨年7/7~今年5/18までのG+ユーザー増加数の順位、
今月YOU TUBEで流されている立候補メンバーのアピールコメントの再生回数順位
と多角的にデータを使用することにより、結果として、単一のソースで生じる危険性のある偏りを、複数データで中和して、予想の精度を高めています。
もう一つ。
数理モデルのデータを解析された研究者は、AKB48のことをよく知らない、知らないからこそ客観的なデータが提供できることを売りにしていましたが、明らかなバグを排除できずに精度を低めています。
例えば、総選挙結果22位の木崎ゆりあが、6月7日で102位。データはこちら
昨年31位の木崎ゆりあが100位以下とは、修正すべきバグ(データの誤り)と、ファンだったら気がつきますが、客観性を保つために修正はなされていません。
最後に、選抜総選挙ライターさんの予想精度が、数理モデルより、高かったのは、AKB48への愛の深さの差なのでしょう。
より深く、AKB48のことを考えているから勝てたのだと。
ナッキー
一つ前の記事は、総選挙結果を基準に、数理モデルとの差を記載しましたが、
ここでは、数理モデルの結果を基準に、総選挙結果との差を見ると次の通り。
1位 大島優子 : 2位 : 1
2位 指原莉乃 : 1位 : 1
3位 松井玲奈 : 7位 : 4
4位 渡辺麻友 : 3位 : 1
5位 山本彩 : 14位 : 9
6位 柏木由紀 : 4位 : 2
7位 篠田麻里子 : 5位 : 2
8位 松井珠理奈 : 6位 : 2
9位 板野友美 : 11位 : 2
10位 島崎遥香 : 12位 : 2
11位 渡辺美優紀 : 15位 : 4
12位 小嶋陽菜 : 9位 : 3
13位 宮澤佐江 : 10位 : 3
14位 高橋みなみ : 8位 : 6
15位 川栄李奈 : 25位 : 10
16位 峯岸みなみ : 18位 : 2
差の合計 54
次に、総選挙分析ライターさんの予想と総選挙結果を同じフォーマットで記載します。
1位 大島優子 : 2位 : 1
2位 篠田麻里子 : 5位 : 3
3位 渡辺麻友 : 3位 : 0
4位 指原莉乃 : 1位 : 3
5位 小嶋陽菜 : 9位 : 4
6位 柏木由紀 : 4位 : 2
7位 板野友美 : 11位 : 4
8位 松井玲奈 : 7位 : 1
9位 高橋みなみ : 8位 : 1
10位 松井珠理奈 : 6位 : 4
11位 山本彩 : 14位 : 3
12位 横山由依 : 13位 : 1
13位 島崎遥香 : 12位 : 1
14位 渡辺美優紀 : 15位 : 1
15位 宮澤佐江 : 10位 : 5
16位 高城亜樹 : 20位 : 4
差の合計 38
総選挙前5日間の数理モデルの上位16人の総選挙結果の差は、合計すると、54
総選挙開始前(速報発表前)に、当ブログの総選挙分析ライター氏が予想した上位16人の総選挙結果の差は、合計すると、38
対決の結果は、38対54で、総選挙分析ライターさんの圧勝。
投票期間は、5月21日10時から6月7日15時まで。
朝日の数理モデルは、ファンが投票中の最後の5日間のデータ。
総選挙分析ライターさんの予想は、5月19日と投票開始前。
本来なら、まさに投票しているデータが反映されると想定される「数理データ」の信頼性が高そうだが、何故負けたのか。
考えるうる一つ目の理由は、こちらの記事で紹介した「統計学の教科書」に載っているサンプルの偏りがあったと推察されます。
単一のデータは、母集団の傾向と一致しないというリスクが顕在化したと、私は分析しました。
AKB48のファンを長年やってる私は、松井玲奈が3位、山本彩が5位、川栄李奈が15位というのは、いかにもありそうな順位。この3人がこの順位なら、島崎遥香の10位は低すぎるんじゃない、とさえ思ってしまう。
でも、ツイッター・ブログを駆使するファンは、アイドル性の高い4人について、たくさん語るけれど、アーティスト性の高い、高橋みなみ・横山由依についてはあまり語らない。
「統計学の教科書」の例では、リテラリー・ダイジェスト(なぞれえ:ブログ・ツイッター)という単一データは共和党(なぞらえ:アイドル性の高いメンバー)を支持している人が多いが、リテラリー・ダイジェストを読んでいない(なぞれえ:ブログ・ツイッターをやっていない)人の多くが民主党(なぞらえ:パフォーマンス主体のメンバー)していた。
補足:NMBではアイドル性渡辺美優紀、パフォーマンス主体山本彩ですが、グループ全体では山本彩はアイドル寄りとして記載しています。
一方、総選挙分析ライターさんは、
昨年度の第4回選抜総選挙の順位、
グーグルプラスユーザー数の順位、
昨年7/7~今年5/18までのG+ユーザー増加数の順位、
今月YOU TUBEで流されている立候補メンバーのアピールコメントの再生回数順位
と多角的にデータを使用することにより、結果として、単一のソースで生じる危険性のある偏りを、複数データで中和して、予想の精度を高めています。
もう一つ。
数理モデルのデータを解析された研究者は、AKB48のことをよく知らない、知らないからこそ客観的なデータが提供できることを売りにしていましたが、明らかなバグを排除できずに精度を低めています。
例えば、総選挙結果22位の木崎ゆりあが、6月7日で102位。データはこちら
昨年31位の木崎ゆりあが100位以下とは、修正すべきバグ(データの誤り)と、ファンだったら気がつきますが、客観性を保つために修正はなされていません。
最後に、選抜総選挙ライターさんの予想精度が、数理モデルより、高かったのは、AKB48への愛の深さの差なのでしょう。
より深く、AKB48のことを考えているから勝てたのだと。
ナッキー