gooブログはじめました!

写真付きで日記や趣味を書くならgooブログ

【高校情報共通テスト対策/学習塾/個別指導】モンテカルロ法(円周率)、確率的・確定的モデル、シミュレーション、物理・論理モデル/教科書完全準拠授業動画

2021-11-20 22:10:10 | 日記

【高校情報Ⅰ参考書・共通テスト】モンテカルロ法(円周率)、確率的・確定的モデル、シミュレーション、物理・論理モデル/教科書完全準拠授業動画

 

 

高校情報1 教科書・参考書・問題集・プログラミング・共通テスト

高等学校 情報Ⅰ(情報1)の動画教科書・参考書・問題集です。授業・プログラミング対策/定期試験対策に利用可能!大学入学共通テスト「情報1」対...

 

 

【資料ダウンロード】

PDFの他、パワーポイント、学習指導案 等の原本も無料提供しています。

情報教育の底上げが目的なので、資料を修正して、学校・塾(営利目的含む)の授業等で利用して頂いて問題ありません。私への連絡不要ですが、利用する際には、YouTubeチャンネル・情報Ⅰ動画教科書・IT用語動画辞典を紹介してもらえると嬉しいです。

■PowerPoint資料
https://toppakou.com/info1/download/29_モデル化とシミュレーション/29_モデル化とシミュレーション.pptx

■Excel資料
https://toppakou.com/info1/download/29_モデル化とシミュレーション/29_モデル化とシミュレーション.xlsx

■簡易学習指導案
https://toppakou.com/info1/download/29_モデル化とシミュレーション/【学習指導案】29_モデル化とシミュレーション.docx


【文字おこし】

今回は様々なモデルの種類、モンテカルロ法、シミュレーションについて説明していきます。

事物や現象の本質的な形状や法則性を抽象化して,より単純化したものを「モデル」といいます。
そして、事物や現象のモデルを作ることをモデル化といいます。

このモデルを使って、実際には行う事が困難な実験を計算だけで行なったり,複雑
な現象を再現したりするための手段としても活用できたりします。

また、このような問題解決の結果を予測するために同様の条件で模擬動作させてみることをシミュレーションと言います。

モデルにはいくつも種類があります。
今回は代表的なものについて説明していきます。


■物理モデルと論理モデル
物理モデルと論理モデルについて説明していきます。
物理モデルは 実物を模したモデルのことです。
 物理モデルの中でも何種類かあり、例えば、モデルルームの様な実物と同じ形をした実物モデル、 実際より小さく作られたミニカーなどの縮尺モデル、 逆に実際より大きく作成された分子模型などの拡大モデルなどがあります。

論理モデルは 現象や手続きなどを表現したモデルになります。
 論理モデルの中でも何種類かあり、例えば、減少や法則などを数学的に表した数式モデル、
 バスや列車の路線図やトーナメント表などの図的モデルなどがあります。


■静的モデルと動的モデル
次に、静的モデルと動的モデルについて説明していきます。
静的モデルは 時間の経過が他の要素に影響を与えないモデルになります。
 たとえば、 円の半径が分かれば半径の2乗×円周率で円の面積が求められますが、その円の半径と面積の関係などがあげられます。

動的モデルは 時間の経過が他の要素に影響を与えるモデルのことで、
確定的モデルと確率的モデルに分けられます。


■確定的モデルと確率的モデル
確定的モデルは、変動する要素がなく、結果が一つに定まるモデルになります。

たとえば、時速60キロの車が常に同じ速度で走り続けた場合、1時間で60キロメートル 2時間で120キロメートル、3時間で180キロメートルと時間と移動距離が予測できます。

確率的モデルは、変動する要素があり結果が1つにならないモデルになります。
たとえばサイコロを振って出る目はランダムな値になります。
この確率的モデルの中で、ランダムな数である乱数を用いて問題解決する手法にモンテカルロ法があります。

■モンテカルロ法
モンテカルロ法の特徴は対象のモデルに乱数を大量に生成して入力し,近似解を得ようとする手法になります。

分かりずらいと思うので、円周率の例で説明していきます。

まず、円周率は円の直径に対する円周の長さの比率のことになります。
そして、円の面積は 円周率×半径の2乗 になります。
公式で表すと円の面積をS 半径をr 円周率をπとした場合
S=πr2乗になります。

なので、半径を1とした場合 π×1×1=πとなり。
円周率と円の面積とがイコールになります。

円の中心をX軸 Y軸共に0とした場合
円の上の部分は Xは0 Yは1 円の右側は Xは1 Yは0となります。
右斜め上はXは1 Yも1 となります。

その4点を結ぶと、長さが1の正方形が描けます。


つぎに、その正方形の中にランダムに点を打っていきます。
通常はもっと多くの点を打ちますが、分かりやすくするために20個ランダムに点を打ちます。

その打った点について、円の内部に存在する点を数えます。

今回は20個のうち 15個が円の内側に入ったとします。

正方形の面積は1×1で1になります。

その面積に対して、均等に点が打たれたとした場合、
円の面積は 20分の15で表されます。

つまり、正方形全体に対する、円の内部の点の割合を円の面積として考えるという意味になります。

今回は円全体に対する面積の4分の1の面積を求めました。
つまり、これを4倍すれば円全体の面積となります。

そして、はじめに話したように、半径1の円の面積が円周率と一致するので
今回の場合は
20分の15 ×4 が円周率となります。

このランダムに打たれる点の数を増やすほど、精度が上がり、皆が知っている3.1415の円周率に近づいていきます。

点が円の内部にあるかどうかは、置いた点のxとyの座標を確認して
xの2乗プラスyの2乗の値が1より小さければ、円の内側に点があります。
つまりxの2乗プラスyの2乗が1の場合は点が円周上に位置しているということになります。

★確定的モデルのシミュレーション

確定的モデルの簡単なシミュレーションをエクセルを使って行っていきます。

お風呂に水を入れるときに、水を入れた時間と湯船にたまる水の量の関係を表すモデルを作成していきます。

1分当たりに何リットルの水が溜まるかの 水の流入速度
何分ごとに水量を取得するかの 時間間隔 は任意の値を入力できるようにします。

シミュレーションの表は
経過時間と水量の列があり初めの行は0とします。
次の経過時間は時間間隔によって変わってくるので、前のセルの値と時間間隔を合算します。オートフィルを使って数式を下にコピーできるようにするためには、時間間隔の行はずらしたらいけないので、時間間隔の行番号の前にドルマークを付けて絶対参照にします。
オートフィルを使って下に数式をコピーします。時間間隔のセルの値を変更すると、経過時間の間隔も変更されます。

次の水量は経過時間と流入速度に比例するのでそれを掛け合わせます。

これも数式を下にコピーできるようにするために、流入速度の行をずらさないように、流入速度の行番号の前にドルマークを付けて絶対参照にします。
オートフィルを使って下に数式をコピーします。流入速度のセルの値を変更すると、水量の値も変更されます。

今日のモデル化とシミュレーションの授業は以上になります。
最後までご視聴ありがとうございました。

【解説重要用語】

モデル化、シミュレーション、物理モデル、実物モデル、縮尺モデル、拡大モデル、論理モデル、数式モデル、図的モデル、静的モデル、動的モデル、確定的モデル、確率的モデル、円周率、モンテカルロ法

★私の目標
「とある男が授業をしてみた」 の葉一さん
https://www.youtube.com/user/toaruotokohaichi
※Google社に招待頂いた、「YouTube教育クリエイターサミット2020」で
 葉一さんと文部科学省・Google役員の対談セッションに感銘を受けて、高校情報講座スタートしています。

【参考サイト・参考文献】
路線・駅の情報 | 東京メトロ (tokyometro.jp) :路線図転載
https://www.tokyometro.jp/station/

文部科学省 「情報Ⅰ」教員研修用教材
https://www.mext.go.jp/a_menu/shotou/zyouhou/detail/1416756.htm

詳細(情I703 高校情報I Python)|情報|高等学校 教科書・副教材|実教出版 (jikkyo.co.jp) 検定通過版
https://www.jikkyo.co.jp/book/detail/22023322

令和4年度新版教科書「情報Ⅰ」|高等学校 情報|日本文教出版 (nichibun-g.co.jp)検定通過版
https://www.nichibun-g.co.jp/textbooks/joho/2022_joho01_1/textbook/

 

 

 


【高校情報共通テスト対策/学習塾/個別指導】区間推定・χ2乗検定(カイ二乗検定)・クロス集計・95%信頼区間教科書準拠

2021-11-20 22:09:09 | 日記

【高校情報Ⅰ学習塾・共通テスト】区間推定・χ2乗検定(カイ二乗検定)・クロス集計・95%信頼区間教科書準拠

 

 

高校情報1 教科書・参考書・問題集・プログラミング・共通テスト

高等学校 情報Ⅰ(情報1)の動画教科書・参考書・問題集です。授業・プログラミング対策/定期試験対策に利用可能!大学入学共通テスト「情報1」対...

 

 

【資料ダウンロード】

PDFの他、パワーポイント、学習指導案 等の原本も無料提供しています。

情報教育の底上げが目的なので、資料を修正して、学校・塾(営利目的含む)の授業等で利用して頂いて問題ありません。私への連絡不要ですが、利用する際には、YouTubeチャンネル・情報Ⅰ動画教科書・IT用語動画辞典を紹介してもらえると嬉しいです。

■PowerPoint資料
https://toppakou.com/info1/download/28ADVANCE区間推定とクロス集計/28ADVANCE区間推定とクロス集計.pptx

■Excel資料
https://toppakou.com/info1/download/28ADVANCE区間推定とクロス集計/28ADVANCE区間推定とクロス集計.xlsx

■簡易学習指導案
https://toppakou.com/info1/download/28ADVANCE区間推定とクロス集計/【学習指導案】28ADVANCE区間推定とクロス集計.docx

 


【文字おこし】

今回は、区間推定、クロス集計、χ(かい)二乗検定について説明していきます。
事前知識として、以前動画解説した母集団と標本とZ検定、t検定についての知識が必要になります。

<iframe class="note-embed" src="https://note.com/embed/notes/nc26bc1315717" height="232px" scrolling="no" data-src="https://note.com/embed/notes/nc26bc1315717" data-ready="true"></iframe>


知識習得が未だの方は概要欄に貼ってあるURLから先に確認頂けると幸いです。

以前、母集団と標本の説明の中で 10万個のどらやきの母集団の中から、100個のどら焼きを無作為に抽出する話をしました。

無作為に抽出しても、母平均と標本平均には誤差が発生する可能性があります。
また、1回目の抽出は平均101g 2回目は99gと言ったように標本内でも取得するたびに差が出る可能性があります。

標本をもとにして調査し確率的に母集団がどのような値を持っているかを推測することを、推定と言います。
テキスト的な表現だと、「標本における一定の法則を母集団に当てはめて推し量る」ことを推定といいます。
推定には、母平均μ=100と言ったように1点で表す 点推定や
95≦μ≦105 と言ったように推定値に一定の幅を持たせる区間推定があります。

今回は区間推定について掘り下げて説明していきます。

先ほど、標本平均にも誤差が発生すると話しましたが、何度も母集団から抽出しその平均値の発生頻度を調べると標本平均も正規分布となります。

区間推定では、この正規分布の95%に属する範囲は高い確率で信頼できるとして、その範囲を95%信頼区間と言います。

Z値になおすと、両端2.5%の位置は1.96でそれを基準に内側に属する区間になります。

具体的な数式で説明します。
母分散が分かっている場合と分かっていない場合で分かれます。

画像1

数式だけだと分かりずらいと思うので具体的な数値を当てはめながら練習問題を解いて行きましょう。
――
★練習問題
母集団の母分散は25.0ということが分かっている。
この母集団から100個を標本として無作為に抽出したところ、標本平均は8.60であった。
母平均μの95%信頼区間を求めてください。

★パワポ参照

画像2

つぎはクロス集計とΧ(かい)2乗検定について説明していきます。

とある高校の1年生と2年生を対象に、学校の校則変更に賛成か反対かのアンケートを取った結果です。
この高校では1年生が220人 2年生が180人です。
1年生で賛成は175人 反対は45人
2年生で賛成は125人 反対は55人 でした。

賛成の合計は300人 反対の合計は100人になります。
  1年生と2年生の合計人数は400人になります。

この表をクロス表と言い、このような集計作業をクロス集計と言います。

この結果から 1年生と2年生の回答に有意な差があるといえるかを調べる仮説検定方法にカイ2乗検定があります。χの記号はエックスのように見えますが、χ かい と読みます。パソコンで かい と入力しても候補として出てきます。

仮説検定なので帰無仮説と立証したい対立仮説が必要になります。

帰無仮説は、1年生と2年生で有意な差は無い
対立仮説は 1年生と2年生で有意な差がある とします。

χ二乗検定を行う上で期待度数という知識が必要になってきます。

期待度数は、アンケート結果の合計が分かっている状態で、全体の割合から考えて期待される数になります。

たとえば1年生で賛成の人の期待度数は 賛成の合計300×1年生の合計人数220÷全体人数の400 を計算すると165になります。
1年生で反対の人の期待度数は 反対の合計100×1年生の合計人数220÷全体人数の400 を計算すると55になります。
2年生も同様に計算すると135と45になります。

χ2乗検定のχ2乗値は (実測度数―期待度数) の2乗 ÷ 期待度数 の値を合計になります。

この式からわかることは・・
• 期待度数と観測度数が完全に一致すれば、χ2乗値はゼロになる
• 逆に、不一致(ずれ)が大きくなれば、χ2乗値は大きな値になる

期待度数に実測度数がどの程度一致しているか調べる検定を適合度検定と言い
 χ二乗検定も適合度検定の1つになります。

1年生の賛成のセルについては (175―165)の2乗 ÷ 165の式で計算すると、小数第5位を四捨五入して0.6060 となります。

他のセルも同様に計算していき 値を合計したχ2乗値は 5.3869となります。


ここで求めたχ2乗値が今までのt値やZ値に相当するものと思ってください。
有意水準5%のχ2乗分布表はこちらになります。

ここの自由度について説明していきます。
自由度は自由に決められるあたいの数ことで
たとえばこのクロス集計表で合計が既に決まっている状態の表の場合、1つのセルに値を入れると他のセルの値はきまります。
左上に200をいれると その右側は合計の220―200で20となります。
下がわは300―200で100となります。そのとなりは180―100で80となります。
なので自由に決められる値は1つだけで自由度は1になります。
セルの数が増えるほど自由度は増えますが
(行数―1)×(列数―1) で簡単に求めることができます。
今回は行数は2 列数も2 なので 計算すると1になり 先ほど説明した数と一致しました。

今回は自由度1なのでχ二乗分布表では限界値は3.841となります。
今回求めたχ2乗値の5.3869は限界値を上回っているので、帰無仮説を棄却し、1年生と2年生で有意な差があるということになります。

――
今話した計算はエクセルを使って簡単に実施することが可能です
まず右上の期待度数は賛成の合計×1年生の合計/全体合計 で各セルを指定します。
オートフィルを使ってコピーできるようにドルマークを付けて絶対参照にしていきましょう。
賛成の合計は、行は固定なので行の前にドルマークを付けます。
F4キーを何度か押してドルマークの位置を変更できます。
学年の合計は列は固定なので、列の前にドルマークを付けます。
全体合計は列も行も固定なので、すべてにドルマークを付けます。
オートフィルを使ってコピーすると期待度数がすべて埋められました。

次にp値を求めていきます。
この結果になる確率になります。これはCHITEST(カイテスト)関数を使います。
第一引数に実測度数を範囲指定します。
第二引数に期待度数を範囲指定します。
P値が算出されました。約2%の確率で起こる結果になります。
次にχ2乗値を求めます。これはCHIINV(カイ・インバース)関数を使います。
第一引数に先ほど求めたp値、第二引数に自由度をしていすると、χ2乗値が算出されます。

今日の区間推定、クロス集計、χ2乗検定の説明は以上になります。
最後までご視聴ありがとうございました。

【解説重要用語】

区間推定、95%信頼区間、クロス集計、クロス表、χ二乗検定(カイにじょうけんてい)、期待度数、実測度数、χ二乗値、適合度検定、χ二乗分布表、χ二乗検定の自由度、

★私の目標
「とある男が授業をしてみた」 の葉一さん
https://www.youtube.com/user/toaruotokohaichi
※Google社に招待頂いた、「YouTube教育クリエイターサミット2020」で
 葉一さんと文部科学省・Google役員の対談セッションに感銘を受けて、高校情報講座スタートしています。

【参考サイト・参考文献】
数学嫌いのための社会統計学〔第2版〕
https://www.amazon.co.jp/s?k=%E7%B5%B1%E8%A8%88%E5%AD%A6+%E6%95%B0%E5%AD%A6%E5%AB%8C%E3%81%84&ref=nb_sb_noss
※佛教大学 情報科教員養成 基礎統計学のテキスト

予備校のノリで学ぶ「大学の数学・物理」 - YouTube
https://www.youtube.com/channel/UCqmWJJolqAgjIdLqK3zD1QQ

文部科学省 「情報Ⅰ」教員研修用教材
https://www.mext.go.jp/a_menu/shotou/zyouhou/detail/1416756.htm

詳細(情I703 高校情報I Python)|情報|高等学校 教科書・副教材|実教出版 (jikkyo.co.jp) 検定通過版
https://www.jikkyo.co.jp/book/detail/22023322

令和4年度新版教科書「情報Ⅰ」|高等学校 情報|日本文教出版 (nichibun-g.co.jp)検定通過版
https://www.nichibun-g.co.jp/textbooks/joho/2022_joho01_1/textbook/

#区間推定 #高校情報 #統計学

 


【高校情報共通テスト対策/学習塾/個別指導】相関係数(共分散・偏差積和・最小二乗法)・回帰直線・散布図・時系列分析(移動平均法)についての授業【高校情報Ⅰ大学入学共通テスト】教科書準拠問題集

2021-11-20 22:08:08 | 日記

相関係数(共分散・偏差積和・最小二乗法)・回帰直線・散布図・時系列分析(移動平均法)についての授業【高校情報Ⅰ大学入学共通テスト】教科書準拠問題集

 

 

高校情報1 教科書・参考書・問題集・プログラミング・共通テスト

高等学校 情報Ⅰ(情報1)の動画教科書・参考書・問題集です。授業・プログラミング対策/定期試験対策に利用可能!大学入学共通テスト「情報1」対...

 

 

【資料ダウンロード】

PDFの他、パワーポイント、学習指導案 等の原本も無料提供しています。

情報教育の底上げが目的なので、資料を修正して、学校・塾(営利目的含む)の授業等で利用して頂いて問題ありません。私への連絡不要ですが、利用する際には、YouTubeチャンネル・情報Ⅰ動画教科書・IT用語動画辞典を紹介してもらえると嬉しいです。

■PowerPoint資料
https://toppakou.com/info1/download/28_時系列分析と回帰分析/28_時系列分析と回帰分析.pptx

■Excel資料
https://toppakou.com/info1/download/28_時系列分析と回帰分析/28_時系列分析と回帰分析.xlsx

■簡易学習指導案
https://toppakou.com/info1/download/28_時系列分析と回帰分析/【学習指導案】28_時系列分析と回帰分析.docx

【文字おこし】

今回は、回帰分析関連の散布図、相関係数、回帰式、最小二乗法そして時系列分析について説明していきます。


これはとあるクラスの情報と数学の試験の点数を情報の点数が低い順に並び替えた表です。
表を見ると何となく、情報の点数が低い人は数学の点数も低い
逆に情報の点数が高い人は数学の点数も高い傾向がある感じがします。
しかし、Dさんのように情報の点数が高くても数学がそれほど高くない場合もあります。

視覚的にその関係性が判断できる散布図というグラフがあります。

横軸Xを情報の点数とします。縦軸Yを数学の点数とします。

情報が55点 数学が57点のAさんは、この位置に点を描きます。
同じように他の人も点を打っていきます。

点が右肩上がりになっていることが分かります。

この散布図が右肩上がりの場合は、情報の点数が高ければ数学も点数が高いという、正の関連があります。これを正の相関といいます。
一方散布図が右肩下がりの場合、具体的には情報の点数が高ければ数学の点数は低いという負の関連があります。これを負の相関といいます。

関連には強弱があります。関連が強いほど散布図の点が線上になっていきます。
関連が弱い、又は関連が無いほど散布図の点はまばらになっていきます。


この点数や身長、体重の様な、人や集団によって異なる能力や性質のことを変数と言います。
散布図は教科書的な説明では、二つの連続変数の関連性をグラフで示したものになります。
点の散らばり具合で、2変数の関連性を視覚的に把握するために用いられます。

相関が強い場合は散布図は視覚的に相関関係が分かりやすいですが、例えばこの図の場合、右肩上がりのようには見えますが、相関が無いものと大きな違いが見いだせない人もいる可能性もあります。

そこで散布図での関連性を具体的な数値で判断できるものとして、相関係数というものが使われます。

相関係数はふたつの連続変数の直線的関連性の強さと方向性を示す数値のことになります。

今回の情報の点数を変数X、数学の点数を変数Yとすると、
相関係数はrXYと表し、―1から+1までの値をとります。
相関係数rxy=1は 完全な正の相関で、右肩上がり一直線上に並びます。
そして相関係数rxy=―1は完全な負の相関で 右肩下がりの一直線上にならびます。
相関係数rxy=0は無相関になります。

0に近づくほど、散布図からは相関関係が読み取りずらくなってきます。


――
相関関係の強さの世間相場は比較対象などによって違いがあります。
一つの目安として、プラスマイナス0.7を上回れば 比較的強い相関と言われることがあります。
プラスマイナス0.4~0.7までは中程度の相関 それ以下は、弱い相関で散布図上では相関を読み取るのは難しくなります。

今話した目安を示すのが難しい理由について、例えば、心理系の研究が扱う個々人のデータは一般的にあまり強い相関は観察されないことから+-0.4~+―0.7の相関でも強いと評価できることが多いです。
しかし、地域別の集計データや理科系の実験データは比較的高い相関が観測されることから+-0.4~+―0.7でも弱いと判断されることがあります
このような理由で、相関関係の強さの世間相場は比較対象などによって差が出てきます。

―――
 
今説明した相関係数をどのように求めるか説明していきます。
計算はいくつかの工程が必要で若干ややこしいので、別にエクセルを使って導き出す方法も後ほど説明します。
先に、計算過程の概要を実際に数値を当てはめながら説明していきます。

大きく3つのステップに分かれます。
STEP1は 偏差積和の計算
STEP2は共分散の計算
STEP3は 共分散を標準偏差の積で割り相関係数を求める
という流れです。

サンプルデータとして正の相関がある、情報と数学のテストの結果5人分を使います。
簡単にするため敢えて人数は少なくしています。

まず偏差積和の計算を行います。
偏差は値と平均点との差になります。


情報の平均点は72点なので、Aさんの情報の偏差は55-72 でー17になります。
数学の平均点は73点なので、Aさんの数学の偏差は57-73でー16になります。
それぞれの人の情報と数学の偏差を求めます。

次に各個人の求めた情報と数学偏差を掛け合わせます。
たとえばAさんの場合は-17×-16で272となります。

次にその求めた偏差の積を全て足し合わせると686になります。
これが偏差積和になります。

―――

次に共分散の計算を行います。
共分散の計算は簡単で先ほど求めた、情報と数学の偏差積和をデータの個数で割ってあげます。
偏差積和の特性上、データの個数が増すと、関連の強さとは無関係に絶対値が大きくなります。
そのため、データの個数で割って調整をします。
この値を共分散と言います。

データ個数は情報と数学を1セットとして考えてください。
今回は データ個数は5なので 5分の 偏差積和 686 で
計算結果は137.2となります。

纏めると共分散は偏差積和をN つまりデータの個数で割ったものになります。。
そしてこの共分散は相関係数の計算や後ほど説明する回帰分析で使われる値になります。

――
次に求めた共分散をもとにして相関係数を求めます。

共分散は、測定する単位によって値が大きく変わってきてしまうデメリットがあります。
たとえば今は100点満点のテストの話で進めていますが、テストが10点満点だと値が小さくなります。逆に200点満点のテストだと値が大きくなり、お互いの相関を比べることは困難になります。

そこで、先ほど話したー1から1までの共通の尺度である相関係数にしていきます。


相関係数は情報と数学それぞれの標準偏差が必要になります。
以前説明した方法で標準偏差を求めると
情報の標準偏差 は13.4
数学の標準偏差 は11.8 になります。

情報の標準偏差×数学の標準偏差 分の 先ほど求めた共分散 で相関係数を求めることができます。

計算すると0.87になり これが相関係数になります。


★★エクセル解説
共分散や相関係数はExcel関数で簡単に求めることができます。
共分散はCOVARIANCE.P(コバリアンス ドット ピー)関数を使用します。
第一引数に情報の点数を範囲指定します。
第二引数に数学の点数を範囲指定します。
先ほど地道に計算した共分散が算出されました。

相関係数は、CORREL(コリレーション・コエフィシェント)関数を利用します。
第一引数に情報の点数を範囲指定します。
第二引数に数学の点数を範囲指定します。
先ほど地道に計算した相関係数が算出されました。


―――

今説明した散布図の点の分布を貫く一本の直線を実際に描き、それを表現する数式を求めれば、一方の変数の値から他方の変数値を予想することが可能になります。
たとえば、数学と情報の試験結果に強い相関がある場合 数学が50点の場合 情報が何点かということがある程度予想可能になります。

この散布図の点の分布をつらぬく直線を回帰直線と言います。そして回帰直線を表現する数式を回帰式と呼びます。
また、Xの値でYの値を予測する場合。
Xを独立変数。 Yを従属変数と呼びます。

回帰直線の数式は一般的に Y=aX+bという形になります。
aは回帰係数といい、回帰直線の傾きを意味します。
bは切片といい、Xが0の時のYの値を意味します。


では、回帰直線はどのように描けばよいでしょうか。
自由に直線引いたら人によって変わってしまう可能性があります。
回帰直線は一定のルールが決まっており、最も一般的なルールは最小二乗法になります。
この図のように、上手く回帰直線を引いても、各点と回帰直線との間にはズレが出てきます。
最小2乗法は、回帰直線を各点とのY軸方向のずれがトータルで最も小さくなるように描く手法になります。
教科書的な表現では、誤差の2乗を合計した値が最小になるように回帰式のaとbを求めることになります。
2乗する理由は+と-を合計すると相殺されてしまうため、それを防ぐためにプラスの値で出るように2乗しています。

先ほど共分散を求めた情報と数学の5人の試験結果の回帰直線式を求めていきます。

手順は3ステップで
Step1は回帰係数aを求める
Step2は切片bをもとめて回帰式を完成させる
Step3は回帰直線を描くことです。

それぞれについて説明していきます。

まず回帰係数aは 独立変数Xの分散 分の 独立変数Xと従属変数Yの共分散 になります。
つまり、情報の分散 分の 先ほど求めた情報と数学の共分散になります。

これに当てはめると 0.7639となります。

そして切片bは従属変数Yの数学の平均値 ― (先ほど求めた)回帰係数a×独立変数Xの情報の平均値になります。

数学の平均点は73 ― 回帰係数は0.7639 × 情報の平均点72
を計算すると17.9992となります。

求めた値を回帰式に当てはめると 
Y=0.7639X+17.9992 となります。


これで回帰式が完成したので 後は任意の2点を決めてそれを定規で結べば回帰直線が出来上がります。

たとえば、Xが0のときはYは17.9992 Xが50の時はYは56.1942となり、それの点を結ぶと回帰直線が描けます。

★★エクセル解説
回帰直線はエクセルのグラフ機能で簡単に描くことができます。
まずは散布図は情報と数学の点数を範囲指定し、グラフの指定で散布図を選ぶと簡単にグラフが作成されます。

どれか1つの点の上で右クリックし、近似曲線の追加を選択します。
線形近似を選択し下の方にあるグラフに数式を表示するを選ぶと先ほどの回帰式が自動計算されて表示されます。
グラフにR2乗値を表示するにチェックして表示される値は回帰直線・回帰式の当てはまりの良さを0~1の数字で表したもので、決定係数といいます。高校情報の教科書ではここまでは言及していないので詳しい説明は割愛します。

―――

気温の変化のように 、時間と共に変動する量を時間順に並べたものを時系列データと言います。
この時系列データを分析することで、全体的な傾向を捉えたり、将来の動きを予測することができます。
時系列データの傾向を調べる方法として、細かな変動を取り除いて主な動きを明らかにするための平滑化などの方法があります。

一定時間範囲のデータの平均値をその範囲の代表値とする方法である、移動平均法について説明していきます。。

この表はある都市の2000年から2020年の各年の平均気温です。

1年ごとなので折れ線グラフはギザギザしています。

5年間を1つの単位とする移動平均を求めていきます。
アベレージ関数を使って2000年から2004年の移動平均を求めます。
次に2001年から2005年の移動平均を求めます。
オートフィルを使うと5年単位の平均の範囲も1年ずつ移動してくれるので便利です。

求めた移動平均も含めて折れ線グラフで表示します。

線が滑らかになり、気温が上昇傾向にあることが分かりやすくなりました。

今回の授業は以上になります。最後までご視聴ありがとうございました。

 

【解説重要用語】

散布図、正の相関、負の相関、相関係数、偏差積和、共分散、回帰分析、回帰式、最小二乗法、時系列データ、移動平均法、時系列分析

★私の目標
「とある男が授業をしてみた」 の葉一さん
https://www.youtube.com/user/toaruotokohaichi
※Google社に招待頂いた、「YouTube教育クリエイターサミット2020」で
 葉一さんと文部科学省・Google役員の対談セッションに感銘を受けて、高校情報講座スタートしています。

【参考サイト・参考文献】
数学嫌いのための社会統計学〔第2版〕
https://www.amazon.co.jp/s?k=%E7%B5%B1%E8%A8%88%E5%AD%A6+%E6%95%B0%E5%AD%A6%E5%AB%8C%E3%81%84&ref=nb_sb_noss
※佛教大学 情報科教員養成 基礎統計学のテキスト

予備校のノリで学ぶ「大学の数学・物理」 - YouTube
https://www.youtube.com/channel/UCqmWJJolqAgjIdLqK3zD1QQ

文部科学省 「情報Ⅰ」教員研修用教材
https://www.mext.go.jp/a_menu/shotou/zyouhou/detail/1416756.htm

詳細(情I703 高校情報I Python)|情報|高等学校 教科書・副教材|実教出版 (jikkyo.co.jp) 検定通過版
https://www.jikkyo.co.jp/book/detail/22023322

令和4年度新版教科書「情報Ⅰ」|高等学校 情報|日本文教出版 (nichibun-g.co.jp)検定通過版
https://www.nichibun-g.co.jp/textbooks/joho/2022_joho01_1/textbook/

 


【高校情報Ⅰ学習塾・共通テスト】母集団と標本/仮説検定(Z検定とt検定)/帰無仮説・有意水準、自由度、t分布、両側検定・片側検定について解説/統計学

2021-11-20 22:07:03 | 日記

【高校情報Ⅰ学習塾・共通テスト】母集団と標本/仮説検定(Z検定とt検定)/帰無仮説・有意水準、自由度、t分布、両側検定・片側検定について解説/統計学

 

 

高校情報1 教科書・参考書・問題集・プログラミング・共通テスト

高等学校 情報Ⅰ(情報1)の動画教科書・参考書・問題集です。授業・プログラミング対策/定期試験対策に利用可能!大学入学共通テスト「情報1」対...

 

 

【資料ダウンロード】

PDFの他、パワーポイント、学習指導案 等の原本も無料提供しています。

情報教育の底上げが目的なので、資料を修正して、学校・塾(営利目的含む)の授業等で利用して頂いて問題ありません。私への連絡不要ですが、利用する際には、YouTubeチャンネル・情報Ⅰ動画教科書・IT用語動画辞典を紹介してもらえると嬉しいです。

■PowerPoint資料
https://toppakou.com/info1/download/27_ADVANCE_母集団と標本・仮説検定/27A_02_母集団と標本/仮説検定.pptx

■簡易学習指導案
https://toppakou.com/info1/download/27_ADVANCE_母集団と標本・仮説検定/【学習指導案】27A_02_母集団と標本/仮説検定.docx

【文字おこし】

今回は、高校情報科目で習う統計学の母集団と標本、推定と検定の概要、Z検定、t検定について説明します。

はじめに母集団と標本について、身近な例と紐づけながら説明していきます。
とある和菓子工場ではどら焼きを1日10万個つくっています。
通常、どら焼きの重さの平均は100グラムとしています。

本当に平均100グラムかを知るためには10万個ぜんぶの重さをはかることですが、現実的ではありません。
そこで、全部の中から無作為に抽出した一定個数の重さを図って、全体を知る手法が用いられます。

画像1

具体的な例を統計学の用語と照らし合わせながら説明していきます。
1日に製造するどら焼き10万個が全量として、その調査や観察の対象とする集団全体のことを母集団と言います。
どら焼きの重さのあるべき姿は平均100グラムです。
平均なので、99グラムの物もあれば、101グラムの物もあります。
以前説明したように、世の中の自然現象や社会現象の多くは正規分布となります。
中央の値の発生頻度が最も多く、それを中心に左右対称で発生頻度が少なくなる分布を正規分布と言います。
今回のどら焼きの重さも正規分布になるとします。
左右対称なので中央の一番高い山が平均値となり今回のあるべき姿の場合は100グラムとなります。
この母集団の中の平均値を母平均と言い μミューという記号で表します。
この集団の散らばり具合は、以前説明したように分散や標準偏差であらわします。
母集団の標準偏差はσ(シグマ)という記号で表します。そして母集団の分散は母分散と言い標準偏差の2乗つまりσ(シグマ)の2乗で表すことができます。

10万個のどらやきのおもさを全て図って平均が100グラムになるか、それとも機器の故障の影響でそうではないかを調べるためには10万個すべての重さを調べるのは現実的ではありません。
なのでこの母集団から一定数のどら焼きを抽出してその重さの平均をはかることにします。
その抽出する場合には、無作為に抽出することが重要です。
例えば、99という数字が好きだから99グラムのどら焼きだけ抽出するのはNGです。

中心当たりのどらやきが最も多いので、無作為に抽出すると、確率的に100グラム前後のどら焼きが抽出できる可能性が高くなってきます。

今回は10万個の母集団のなかから無作為に100個のどら焼きをとってきたとします。
この抽出された集団を標本と言い、1組の標本中のデータ数をサンプル数と言いい、nで表します。
標本も母集団と同様に正規分布になり、標本の平均を標本平均といい、エックスバーの記号で表します、標本の標準偏差はsの記号であらわし、分散はsの2乗となります。

サンプル数が母集団の数に近づくほど、母集団の平均や分散に近くなっていきますが、全量調査しているわけではないので、母集団と誤差が生じます。
また、おなじ100個でも1回目で抽出した標本データと、2回目に抽出した標本データの間でも誤差が生じる可能性があります。

――――――――――

多くの場合、母集団の平均値や分散が分かりません。
標本をもとにして調査し確率的に母集団がどのような値を持っているかを推測することを、推定と言います。
テキスト的な表現だと、「標本における一定の法則を母集団に当てはめて推し量る」ことを推定といいます。
推定には、母平均μ=100と言ったように1点で表す 点推定や
95≦μ≦105 と言ったように推定値に一定の幅を持たせる区間推定があります。

――――

標本のデータから、母集団にかんする仮説の真偽を判定する方法のことを仮説検定と言います。

簡単な例で説明していきます。本来数十万とか大きい数ですが簡単にするために、あえて少ない数で説明します。

人口10万人のミライ王国で200人を無作為に選んだところ、女性が130人、男性が70であった。
この標本データからだけ言える事実は「ミライ王国では女性の方が多い」ということです。
ただ、母集団を調べているわけではないので、これは仮説になります。
この仮説に対する反論として、「ミライ王国の男女比は半々のはず。たまたま、女性の方が多く取れただけ。女性が多いのは偶然のいたずらです」という意見がでたとします。
この女性が多いという立証したい仮説を対立仮説といいます。
それに対立する、男女比は半々という意見を帰無仮説と言います。

仮説検定では、「帰無仮説」の方が正しいという前提に立ちます。
つまり男女比が半々という仮説を正として、今回のように200人抽出して130人以上が女性になるという偏った結果になるのはどれくらいの確率で起こり得るのかを計算します。
この確率のことをp値といいます。p値0.05と言ったら百分率で表すと5%の確率という意味になります。

統計学の世界ではこのP値が5%未満だった場合は、めったに起こらないことが起きたとして、対立仮説が正しいと判断します。逆に言えば帰無仮説は正しくないということになります。このことを帰無仮説を棄却すると言います。
このめったに起こらないことを有意性があるともいいます。
この帰無仮説を棄却する5%未満の基準を有意水準といいます。医療問題など慎重な判断が必要な場合は有意水準1%が使われることもあります。

かりに有意水準が5%を上回った場合は、帰無仮説を棄却せず、女性の方が多いという仮説を採択しない流れになります。

頭が混乱していると思うので、ヒストグラムのイメージ図使って説明していきます。
縦軸を確率、横軸を女性の人数とします。
男女比半々という帰無仮説を正しい前提とするので、ヒストグラムの平均つまり最も盛り上がっている部分も全体の半分の100人とします。
全体の面積の5%未満がこの部分で、この境目にあたる女性の人数を限界値と言います。
そして有意水準の領域にある女性人数125人より多い領域を棄却域といいます。

つまり、限界値である125人より多ければ有意水準の5%未満の領域なので、男女比半々という帰無仮説は棄却されます。

今回は有意水準を右の片側5%を基準にしましたが、これを片側検定といいます。
いまは、女性が多いことを実証しましが、
仮に男女比がアンバランスという仮説を検証する場合は、女性が多い場合と男性が多い場合が考えられるので両側に設定する必要があります。
この場合は5%を左右で按分して、2.5%ずつ左右に棄却域を設けることになります。
これを両側検定といいます。

検定は何種類かありますが、母集団の正規分布に従っていて、
母平均と母分散が既に分かっている場合に使われる検定にZ検定があります。
標本平均と母平均が統計的に見て等しいといえるか検定する方法になります。

標本平均に対するZ値を求めて、それが標準正規分布のどこに位置するかで帰無仮説を棄却するか否かを決定します。

Z値は以前の動画で説明しましたが
あるデータxが平均値μからどれだけ離れているかを、標準偏差σを単位として示した値のことになります。


★例題
今のZ検定は、母分散が分かっていましたが、母分散が分からない場合はt検定というものを使います。サンプル数が30未満と少ない標本の場合に使われます。
母集団から抽出した標本平均の分布は正規分布に似た釣り鐘型になります。
この分布をt分布と言います。
これを聞いてZ値を思い出した方も多いと思います。
標準正規分布のZ値に相当する統計量がt値になります。ただしt値、―4~4の範囲より広くなります。

t値を求める上で、母分散の推定値である不偏分散を求める必要があります。
さきに自由度という言葉を説明します。
自由度は、自由に決められる数のことです。
たとえば平均値が既に決まっていた場合で4つの値を入力できる欄があったとします。
平均10とすると 1つめ8、二つ目11、3つめ10とした場合、平均10にするためには、4つめは11にしなければいけません。
この場合、4つのうち3つ自由に決められるので、自由度は3となります。
サンプル数がnとした場合、自由度はn―1で表されます。

今までの知識で、分散を求めるには
データ数分の平均との差の2二乗を足し合わせたものであらわしました。

不偏分散を求める式の分母は サンプル数マイナス1をします。

標本の特性上、元となった母集団の母分散に比べて分散が小さくなる傾向があります。
サンプル数マイナス1をして分母を小さくすれば、得られる値は大きくなります。
サンプル数n―1をして、標本の分散である分散を母分散に近づけるという役割をします。

★t値の公式パワポ

求めたt値が、全体の何パーセントに位置するかを調べるには自由度と有意水準で表される t分布表と突き合わせを行います。
正確には仮説を成り立たせる確率である信頼度というものも存在します。今回は信頼度95%の表になりますが、高校の情報の教科書にはそこまで言及していないので信頼度の詳しい説明は割愛します。
t分布表については、この後行う例題で具体的にどのように見るかを説明します。

それではt検定に関する、例題を解いて行きましょう。
★例題


t検定は、2標本間の有意差を調べる場合にも用いられます。

私用で高校の説明会に何校か行きましたが、話題にでてくるのが、YouTube教育動画についてです。
予習は予備校講師のYouTube動画を使ってもらい、授業はそれが分かっている前提で対面でしかできない内容で行いますや
「先生がYouTuberやってます」とか生徒会長が自慢げに語っている学校もありました。

これは、公立高校の情報教諭のブログ記事ですが、


コロナの影響で授業動画をYouTubeにアップしてそれで勉強してもらったら、テストの平均点が大幅に伸びたという話題です。
いつもの感覚なら平均70点前後のはずが、平均85点くらいだったらしく、わからないところを何度も見直せるなどの利点があったためなどが考えられます。

このような効果の検証にも、t検定は有効です。
立証したい仮説を YouTube動画は成績アップに効果がある。
反対意見の帰無仮説は、 YouTube動画は成績アップに効果はない。平均点に差が出たのはたまたま として
YouTube動画での学習を取り込んだクラスのテスト結果の標本と今まで通りの授業を行った標本からt値を求める方法が考えられます。
t検定は何種類かあります。
対応のあるt検定と対応のないt検定
対応のあるとは、同じ人、同じ物と考えてください。
例として同じクラスの生徒が受験した2つの試験結果の比較などがあげられます。

一方、対応のないとは違う人、違う物と考えてください。
対象が同じでも、同じ分散を持つ標本と異なる分散を持つ標本でわかれます。
同じ分散を持つ標本の例として、A組はYouTube動画で勉強を行った集団。B組はYouTube動画を使わずに勉強を行った集団として、同じテストを受験した2つのクラスを比較する検定が考えられます。

異なる分散を持つ標本の例としては
去年と今年の生徒が受験した異なる2つの試験結果を比較する検定が考えられます。

今日の授業は今まで大学で扱っていた統計学の一部が高校情報Ⅰの教科書にとりこまれていて、かなり難易度が高く感じたと思います。
統計学に関しては、さらに掘り下げた分かりやすいYouTube動画が沢山あるので興味があればさらに知識を深めていきましょう。

今日の授業は以上になります。最後までご視聴ありがとうございました。

【解説重要用語】

母集団、標本、母平均μ、母分散 σ2乗、標準偏差σ、正規分布、標本平均 Xバー、標本分差 sの2乗、サンプル数n、サンプリング、点推定、区間推定、仮説検定、帰無仮説、帰無仮説を棄却する、対立仮説、p値、有意水準、有意性、片側検定、両側検定、Z検定、自由度、t分布表、不偏分散

★私の目標
「とある男が授業をしてみた」 の葉一さん
https://www.youtube.com/user/toaruotokohaichi
※Google社に招待頂いた、「YouTube教育クリエイターサミット2020」で
 葉一さんと文部科学省・Google役員の対談セッションに感銘を受けて、高校情報講座スタートしています。

【参考サイト・参考文献】
P値と帰無仮説について専門用語も数式も使わずにざっくりとしたイメージを説明してしまう動画 – YouTube
https://www.youtube.com/watch?v=y0g7OuJpTno

熊野コミチ 統計とお仕事チャンネル – YouTube
https://www.youtube.com/channel/UCxGR5omDLIXBu6yOrvOJ-2w

予備校のノリで学ぶ「大学の数学・物理」 - YouTube
https://www.youtube.com/channel/UCqmWJJolqAgjIdLqK3zD1QQ

都立高校 情報科教諭ブログ
https://inagaki-shunsuke.jp/

数学嫌いのための社会統計学〔第2版〕
https://www.amazon.co.jp/s?k=%E7%B5%B1%E8%A8%88%E5%AD%A6+%E6%95%B0%E5%AD%A6%E5%AB%8C%E3%81%84&ref=nb_sb_noss
※佛教大学 情報科教員養成 基礎統計学のテキスト

文部科学省 「情報Ⅰ」教員研修用教材
https://www.mext.go.jp/a_menu/shotou/zyouhou/detail/1416756.htm

詳細(情I703 高校情報I Python)|情報|高等学校 教科書・副教材|実教出版 (jikkyo.co.jp) 検定通過版
https://www.jikkyo.co.jp/book/detail/22023322

令和4年度新版教科書「情報Ⅰ」|高等学校 情報|日本文教出版 (nichibun-g.co.jp)検定通過版
https://www.nichibun-g.co.jp/textbooks/joho/2022_joho01_1/textbook/

 

 

 


【高校情報共通テスト対策/学習塾/個別指導】二項分布と正規分布/ベルヌーイ試行/Z値・期待値/標準正規分布エクセルグラフ作成【高校情報1授業】

2021-11-20 22:05:59 | 日記

二項分布と正規分布/ベルヌーイ試行/Z値・期待値/標準正規分布エクセルグラフ作成【高校情報1授業・共通テスト対策】

 

 

高校情報1 教科書・参考書・問題集・プログラミング・共通テスト

高等学校 情報Ⅰ(情報1)の動画教科書・参考書・問題集です。授業・プログラミング対策/定期試験対策に利用可能!大学入学共通テスト「情報1」対...

 

 

【資料ダウンロード】

PDFの他、パワーポイント、学習指導案 等の原本も無料提供しています。

情報教育の底上げが目的なので、資料を修正して、学校・塾(営利目的含む)の授業等で利用して頂いて問題ありません。私への連絡不要ですが、利用する際には、YouTubeチャンネル・情報Ⅰ動画教科書・IT用語動画辞典を紹介してもらえると嬉しいです。

■PowerPoint・エクセル資料
https://toppakou.com/info1/download/27_ADVANCE_データの分布と検定の考え方/01_二項分布と正規分布/01_二項分布と正規分布.pptx


https://toppakou.com/info1/download/27_ADVANCE_データの分布と検定の考え方/01_二項分布と正規分布/標準正規分布のグラフ.xlsx

■簡易学習指導案
https://toppakou.com/info1/download/27_ADVANCE_データの分布と検定の考え方/01_二項分布と正規分布/【学習指導案】27A_01_二項分布と正規分布.docx

【文字おこし】

今回は、統計関連の二項分布と正規分布について解説していきます。

前回の動画で説明した分散と標準偏差に関する事前知識が必要なので、知識の習得が未だの方は概要欄に貼ってある、分散と標準偏差に関する知識をみにつけてからこの動画を見てください。

まずは、二項分布について説明していきます。

世の中には2つの状態で表されるものが沢山ありますよね。

例えば、コインを投げた時に表が出るか、裏が出るか。
実験を行ったときに、成功するか、失敗するか。
6面体のサイコロにしても、1がでるか、それ以外が出るかと2つの状態に言い換えることもできます。

コインを投げた時に表が出るのは、普通に考えると2回に一回なので、確率は2分の1になります。

コインの表が出たら1点 裏なら0点として、4回投げて合計が1点 つまり表が1回だけ出る確率を求めていきましょう。

左側に分岐のパターン、右側には点数の合計の数 つまり合計の度数分布を表しています。

まず初めの1回目は 表と裏のパターンがあり裏なら0点 表なら1点となります

2回目について
一回目が裏のパターンから裏と表のパターンがあり裏なら1回目の点数も0なので0点、表なら1点となります。

1回目が表の場合も2回目は裏と表があります。
裏の場合は合計値は一回目1点+2回目0点で1 
表の場合は、一回目1点 2回目1点で 2となります。

合計の度数の分布は、0点が1つ 1点が2つ 2点が1つとなります。

3回目も同様に分岐させて、表の場合は2回目までの合計に+1点します。
 合計の度数の分布は、0点が1つ 1点が3つ 2点が3つと 3点が1つとなります。

4回目も同様に分岐させて、表の場合は3回目までの合計に+1点します。
 合計の度数の分布は、0点が1つ 1点が4つ 2点が6つと 3点が4つ すべてで表が出た4点は1つとなります。

つまり、コインを4回投げた時に表が1回だけ出るのは度数が1のパターンで16分の4 を約分して四分の1の確率となります。

この確率はグラフ全体の度数の合計値に対する該当する範囲の度数の割合と同じになります。

試行結果が表か裏、成功か失敗、勝ちか負けか、1かそれ以外かのように2通りしかない試行をベルヌーイ試行といいます。

今回はこのベルヌーイ試行を4回行いましたが
ベルヌーイ試行を複数回行った場合で、ある事象が何回起こるかの確率分布を二項分布といいます。

今度は成功か失敗のパターンで確率を変えて考えていきます。

1回で成功する確率をpとします。
そして、実験した回数(試行回数)をn回とします。
そして、実験で成功した回数をkとします。

n回試してk回成功する確率Pを求めていきます。


このkの値を色々変えていきながらグラフに表したものを二項分布と言います。

P(X=k) はk回成功した場合の確率という意味です。
それを求めていきます
n回の内k回が成功のパターンで
成功の確率はpでそれをk回行うのでpのk乗となります。
逆に失敗の確率は、全体から成功の確率を引けばいいので1―p となります。
失敗の回数は試行回数nから成功の回数kを引いてあげればいいのでn-kとなります。

そしてn回のうちk回が成功するパターンは
例えば3回の内 1回が成功の例だと
成功 失敗 失敗
失敗 成功 失敗
失敗 失敗 成功 
の場合があります。

そのパターンの分も掛け合わせる必要があり、それはnCkで表されます。

つまりパターン数×n回の内k回の成功確率×n回の内 失敗の確率 となります。

二項分布のグラフで表すと

縦軸を確率P(X=k) 横軸を成功回数kとすると

試行回数n回の内 成功回数のkが0の時の確率、kが1回の時の確率 kが2回の時の確率というようにkを増やしていき 一番右側のパターンはn=kなので すべて成功したパターンの確率となります。

※さっきのパターン
 一番初めに説明したコイン投げのパターンに当てはめてみましょう。
表が出る確率が2分の1なので0.5 試行回数4回で、 表が1回出る確率を公式に当てはめて求めると
 4C1×0.5の1乗 ×(1-0.5)4-1乗となり
 
4 ×0.5× 0.125 =0.25 となり 先ほど図を書いて計算した結果と一致しました。

確率的に期待される期待値というものがあります。

例えば、この二項分布のグラフの場合、5が期待値で、最も確率が高いことが分かります。
期待値の求め方は公式があって 事象が起こる確率×試行回数で求められます。
例えば成功確率が3分の1 試行回数が30回の場合は 3分の1×30で10回が期待値となります。

―――
二項分布のグラフは、試行回数を増やしていくとこのような左右対称の曲線に近づきます。
言い換えると、中央の値の発生頻度が最も多く、それを中心に左右対称で発生頻度が少なくなります。このような分布を正規分布と言います。


平均が0、分散が1 つまり標準偏差が1の正規分布を標準正規分布と言います。

平均が0というのはわかりずらいかもしれませんが
例えば1とー1の平均は0となります。


――
このグラフで囲まれた面積全体を1とすると、
横軸の値をZとして、Zが0と1 の間の面積は 全体の34.13%を占めます。左右対称なので0とー1の間の面積も全体の34.13%となります。
範囲を広げて0~2の間の面積は、全体の47.72%を占めます。左右対称なので0とー2の間の面積も全体の47.72%となります。
つまり、―2~2の間で全体の95.44%の面積となります。

Zが4~―4の範囲は面積全体の100%となります。

横軸をZと言いましたが、あるデータxが平均値(μミュー)からどれだけ離れているかを、標準偏差σ(シグマ)を単位として示した値を Z値 と言います。

Z値の求め方は、標準偏差σ 分の 値x ― 平均μ で求めることができます。

正規分布表と比べながら、具体的な例でみていきましょう。

情報の試験を行ったときの平均点が55点 標準偏差が10の場合
65点の生徒が上位何パーセントの位置にいるかを調べていきましょう。
この試験の得点は正規分布に従うものとする
まずZ値は 標準偏差 10 分の 生徒点数の65―平均値の55をすると1.0となります。
先ほどの標準正規分布の表では、この1から4の間の面積の割合は15.87%
なので、上位15.87%ということが分かります。


最後にエクセルを使って、標準正規分布のグラフを作成していきます。
Zをー4から4の範囲で0.1間隔とします。
はじめのー4とー3.9を入力した後は二つを範囲指定して、右下の黒■の上にマウスカーソルをあてて、下にドラックすれば簡単に4までの数字が自動入力されます。
Y軸の確率の計算は、ノーマルスタンダードディストリビューション関数を使います。
NORM.S.DISTの関数を選んで 第一引数にZ値のセルを選びます。
第二引数をFalseにすると 値がZの時の標準正規分布の値を算出してくれますので今回はFalseとします。
True にすると値がZ以下の範囲の標準正規分布の割合を出してくれます。
1行目について算出されたので、オートフィルを使って関数を下にコピーします。

個人的な感想ですが、
このノーマルスタンダードディストリビューション関数って名前物凄くかっこよくないですか?男性生徒は女子に標準正規分布グラフを教える機会があれば、
ノーマルスタンダードディストリビューション関数使えば簡単だよ と言えば、モテモテかもしれません。

グラフにしたい範囲を範囲指定して、挿入からおすすめグラフで折れ線グラフを選べば、標準正規分布のグラフが描けます。

今日の二項分布と正規分布の授業は以上になります。
最後までご視聴ありがとうございました。

【解説重要用語】
オ二項分布、ベルヌーイ試行、正規分布、標準正規分布、期待値、Z値、正規分布(Excelグラフ)、NORM.S.DIST関数(ノーマル・スタンダード・ディストリビューション関数)

★私の目標
「とある男が授業をしてみた」 の葉一さん
https://www.youtube.com/user/toaruotokohaichi
※Google社に招待頂いた、「YouTube教育クリエイターサミット2020」で
 葉一さんと文部科学省・Google役員の対談セッションに感銘を受けて、高校情報講座スタートしています。

【参考サイト・参考文献】

参考サイト(YouTube動画)ソフトキャンパスExcel学校https://www.youtube.com/watch?v=a9uh9s3bQh4

文部科学省 「情報Ⅰ」教員研修用教材
https://www.mext.go.jp/a_menu/shotou/zyouhou/detail/1416756.htm

詳細(情I703 高校情報I Python)|情報|高等学校 教科書・副教材|実教出版 (jikkyo.co.jp) 検定通過版
https://www.jikkyo.co.jp/book/detail/22023322

令和4年度新版教科書「情報Ⅰ」|高等学校 情報|日本文教出版 (nichibun-g.co.jp)検定通過版
https://www.nichibun-g.co.jp/textbooks/joho/2022_joho01_1/textbook/


その他、情報処理技術者試験(全レベル1~4)/IT企業15年勤務(システム技術部 部長)経験から培った知識を交えながら解説しています。

かわいいフリー素材集 いらすとや (irasutoya.com)
https://www.irasutoya.com/

#高校情報 #標準正規分布 #統計学