gooブログはじめました!

写真付きで日記や趣味を書くならgooブログ

【高校情報Ⅰ学習塾・共通テスト】母集団と標本/仮説検定(Z検定とt検定)/帰無仮説・有意水準、自由度、t分布、両側検定・片側検定について解説/統計学

2021-11-20 22:07:03 | 日記

【高校情報Ⅰ学習塾・共通テスト】母集団と標本/仮説検定(Z検定とt検定)/帰無仮説・有意水準、自由度、t分布、両側検定・片側検定について解説/統計学

 

 

高校情報1 教科書・参考書・問題集・プログラミング・共通テスト

高等学校 情報Ⅰ(情報1)の動画教科書・参考書・問題集です。授業・プログラミング対策/定期試験対策に利用可能!大学入学共通テスト「情報1」対...

 

 

【資料ダウンロード】

PDFの他、パワーポイント、学習指導案 等の原本も無料提供しています。

情報教育の底上げが目的なので、資料を修正して、学校・塾(営利目的含む)の授業等で利用して頂いて問題ありません。私への連絡不要ですが、利用する際には、YouTubeチャンネル・情報Ⅰ動画教科書・IT用語動画辞典を紹介してもらえると嬉しいです。

■PowerPoint資料
https://toppakou.com/info1/download/27_ADVANCE_母集団と標本・仮説検定/27A_02_母集団と標本/仮説検定.pptx

■簡易学習指導案
https://toppakou.com/info1/download/27_ADVANCE_母集団と標本・仮説検定/【学習指導案】27A_02_母集団と標本/仮説検定.docx

【文字おこし】

今回は、高校情報科目で習う統計学の母集団と標本、推定と検定の概要、Z検定、t検定について説明します。

はじめに母集団と標本について、身近な例と紐づけながら説明していきます。
とある和菓子工場ではどら焼きを1日10万個つくっています。
通常、どら焼きの重さの平均は100グラムとしています。

本当に平均100グラムかを知るためには10万個ぜんぶの重さをはかることですが、現実的ではありません。
そこで、全部の中から無作為に抽出した一定個数の重さを図って、全体を知る手法が用いられます。

画像1

具体的な例を統計学の用語と照らし合わせながら説明していきます。
1日に製造するどら焼き10万個が全量として、その調査や観察の対象とする集団全体のことを母集団と言います。
どら焼きの重さのあるべき姿は平均100グラムです。
平均なので、99グラムの物もあれば、101グラムの物もあります。
以前説明したように、世の中の自然現象や社会現象の多くは正規分布となります。
中央の値の発生頻度が最も多く、それを中心に左右対称で発生頻度が少なくなる分布を正規分布と言います。
今回のどら焼きの重さも正規分布になるとします。
左右対称なので中央の一番高い山が平均値となり今回のあるべき姿の場合は100グラムとなります。
この母集団の中の平均値を母平均と言い μミューという記号で表します。
この集団の散らばり具合は、以前説明したように分散や標準偏差であらわします。
母集団の標準偏差はσ(シグマ)という記号で表します。そして母集団の分散は母分散と言い標準偏差の2乗つまりσ(シグマ)の2乗で表すことができます。

10万個のどらやきのおもさを全て図って平均が100グラムになるか、それとも機器の故障の影響でそうではないかを調べるためには10万個すべての重さを調べるのは現実的ではありません。
なのでこの母集団から一定数のどら焼きを抽出してその重さの平均をはかることにします。
その抽出する場合には、無作為に抽出することが重要です。
例えば、99という数字が好きだから99グラムのどら焼きだけ抽出するのはNGです。

中心当たりのどらやきが最も多いので、無作為に抽出すると、確率的に100グラム前後のどら焼きが抽出できる可能性が高くなってきます。

今回は10万個の母集団のなかから無作為に100個のどら焼きをとってきたとします。
この抽出された集団を標本と言い、1組の標本中のデータ数をサンプル数と言いい、nで表します。
標本も母集団と同様に正規分布になり、標本の平均を標本平均といい、エックスバーの記号で表します、標本の標準偏差はsの記号であらわし、分散はsの2乗となります。

サンプル数が母集団の数に近づくほど、母集団の平均や分散に近くなっていきますが、全量調査しているわけではないので、母集団と誤差が生じます。
また、おなじ100個でも1回目で抽出した標本データと、2回目に抽出した標本データの間でも誤差が生じる可能性があります。

――――――――――

多くの場合、母集団の平均値や分散が分かりません。
標本をもとにして調査し確率的に母集団がどのような値を持っているかを推測することを、推定と言います。
テキスト的な表現だと、「標本における一定の法則を母集団に当てはめて推し量る」ことを推定といいます。
推定には、母平均μ=100と言ったように1点で表す 点推定や
95≦μ≦105 と言ったように推定値に一定の幅を持たせる区間推定があります。

――――

標本のデータから、母集団にかんする仮説の真偽を判定する方法のことを仮説検定と言います。

簡単な例で説明していきます。本来数十万とか大きい数ですが簡単にするために、あえて少ない数で説明します。

人口10万人のミライ王国で200人を無作為に選んだところ、女性が130人、男性が70であった。
この標本データからだけ言える事実は「ミライ王国では女性の方が多い」ということです。
ただ、母集団を調べているわけではないので、これは仮説になります。
この仮説に対する反論として、「ミライ王国の男女比は半々のはず。たまたま、女性の方が多く取れただけ。女性が多いのは偶然のいたずらです」という意見がでたとします。
この女性が多いという立証したい仮説を対立仮説といいます。
それに対立する、男女比は半々という意見を帰無仮説と言います。

仮説検定では、「帰無仮説」の方が正しいという前提に立ちます。
つまり男女比が半々という仮説を正として、今回のように200人抽出して130人以上が女性になるという偏った結果になるのはどれくらいの確率で起こり得るのかを計算します。
この確率のことをp値といいます。p値0.05と言ったら百分率で表すと5%の確率という意味になります。

統計学の世界ではこのP値が5%未満だった場合は、めったに起こらないことが起きたとして、対立仮説が正しいと判断します。逆に言えば帰無仮説は正しくないということになります。このことを帰無仮説を棄却すると言います。
このめったに起こらないことを有意性があるともいいます。
この帰無仮説を棄却する5%未満の基準を有意水準といいます。医療問題など慎重な判断が必要な場合は有意水準1%が使われることもあります。

かりに有意水準が5%を上回った場合は、帰無仮説を棄却せず、女性の方が多いという仮説を採択しない流れになります。

頭が混乱していると思うので、ヒストグラムのイメージ図使って説明していきます。
縦軸を確率、横軸を女性の人数とします。
男女比半々という帰無仮説を正しい前提とするので、ヒストグラムの平均つまり最も盛り上がっている部分も全体の半分の100人とします。
全体の面積の5%未満がこの部分で、この境目にあたる女性の人数を限界値と言います。
そして有意水準の領域にある女性人数125人より多い領域を棄却域といいます。

つまり、限界値である125人より多ければ有意水準の5%未満の領域なので、男女比半々という帰無仮説は棄却されます。

今回は有意水準を右の片側5%を基準にしましたが、これを片側検定といいます。
いまは、女性が多いことを実証しましが、
仮に男女比がアンバランスという仮説を検証する場合は、女性が多い場合と男性が多い場合が考えられるので両側に設定する必要があります。
この場合は5%を左右で按分して、2.5%ずつ左右に棄却域を設けることになります。
これを両側検定といいます。

検定は何種類かありますが、母集団の正規分布に従っていて、
母平均と母分散が既に分かっている場合に使われる検定にZ検定があります。
標本平均と母平均が統計的に見て等しいといえるか検定する方法になります。

標本平均に対するZ値を求めて、それが標準正規分布のどこに位置するかで帰無仮説を棄却するか否かを決定します。

Z値は以前の動画で説明しましたが
あるデータxが平均値μからどれだけ離れているかを、標準偏差σを単位として示した値のことになります。


★例題
今のZ検定は、母分散が分かっていましたが、母分散が分からない場合はt検定というものを使います。サンプル数が30未満と少ない標本の場合に使われます。
母集団から抽出した標本平均の分布は正規分布に似た釣り鐘型になります。
この分布をt分布と言います。
これを聞いてZ値を思い出した方も多いと思います。
標準正規分布のZ値に相当する統計量がt値になります。ただしt値、―4~4の範囲より広くなります。

t値を求める上で、母分散の推定値である不偏分散を求める必要があります。
さきに自由度という言葉を説明します。
自由度は、自由に決められる数のことです。
たとえば平均値が既に決まっていた場合で4つの値を入力できる欄があったとします。
平均10とすると 1つめ8、二つ目11、3つめ10とした場合、平均10にするためには、4つめは11にしなければいけません。
この場合、4つのうち3つ自由に決められるので、自由度は3となります。
サンプル数がnとした場合、自由度はn―1で表されます。

今までの知識で、分散を求めるには
データ数分の平均との差の2二乗を足し合わせたものであらわしました。

不偏分散を求める式の分母は サンプル数マイナス1をします。

標本の特性上、元となった母集団の母分散に比べて分散が小さくなる傾向があります。
サンプル数マイナス1をして分母を小さくすれば、得られる値は大きくなります。
サンプル数n―1をして、標本の分散である分散を母分散に近づけるという役割をします。

★t値の公式パワポ

求めたt値が、全体の何パーセントに位置するかを調べるには自由度と有意水準で表される t分布表と突き合わせを行います。
正確には仮説を成り立たせる確率である信頼度というものも存在します。今回は信頼度95%の表になりますが、高校の情報の教科書にはそこまで言及していないので信頼度の詳しい説明は割愛します。
t分布表については、この後行う例題で具体的にどのように見るかを説明します。

それではt検定に関する、例題を解いて行きましょう。
★例題


t検定は、2標本間の有意差を調べる場合にも用いられます。

私用で高校の説明会に何校か行きましたが、話題にでてくるのが、YouTube教育動画についてです。
予習は予備校講師のYouTube動画を使ってもらい、授業はそれが分かっている前提で対面でしかできない内容で行いますや
「先生がYouTuberやってます」とか生徒会長が自慢げに語っている学校もありました。

これは、公立高校の情報教諭のブログ記事ですが、


コロナの影響で授業動画をYouTubeにアップしてそれで勉強してもらったら、テストの平均点が大幅に伸びたという話題です。
いつもの感覚なら平均70点前後のはずが、平均85点くらいだったらしく、わからないところを何度も見直せるなどの利点があったためなどが考えられます。

このような効果の検証にも、t検定は有効です。
立証したい仮説を YouTube動画は成績アップに効果がある。
反対意見の帰無仮説は、 YouTube動画は成績アップに効果はない。平均点に差が出たのはたまたま として
YouTube動画での学習を取り込んだクラスのテスト結果の標本と今まで通りの授業を行った標本からt値を求める方法が考えられます。
t検定は何種類かあります。
対応のあるt検定と対応のないt検定
対応のあるとは、同じ人、同じ物と考えてください。
例として同じクラスの生徒が受験した2つの試験結果の比較などがあげられます。

一方、対応のないとは違う人、違う物と考えてください。
対象が同じでも、同じ分散を持つ標本と異なる分散を持つ標本でわかれます。
同じ分散を持つ標本の例として、A組はYouTube動画で勉強を行った集団。B組はYouTube動画を使わずに勉強を行った集団として、同じテストを受験した2つのクラスを比較する検定が考えられます。

異なる分散を持つ標本の例としては
去年と今年の生徒が受験した異なる2つの試験結果を比較する検定が考えられます。

今日の授業は今まで大学で扱っていた統計学の一部が高校情報Ⅰの教科書にとりこまれていて、かなり難易度が高く感じたと思います。
統計学に関しては、さらに掘り下げた分かりやすいYouTube動画が沢山あるので興味があればさらに知識を深めていきましょう。

今日の授業は以上になります。最後までご視聴ありがとうございました。

【解説重要用語】

母集団、標本、母平均μ、母分散 σ2乗、標準偏差σ、正規分布、標本平均 Xバー、標本分差 sの2乗、サンプル数n、サンプリング、点推定、区間推定、仮説検定、帰無仮説、帰無仮説を棄却する、対立仮説、p値、有意水準、有意性、片側検定、両側検定、Z検定、自由度、t分布表、不偏分散

★私の目標
「とある男が授業をしてみた」 の葉一さん
https://www.youtube.com/user/toaruotokohaichi
※Google社に招待頂いた、「YouTube教育クリエイターサミット2020」で
 葉一さんと文部科学省・Google役員の対談セッションに感銘を受けて、高校情報講座スタートしています。

【参考サイト・参考文献】
P値と帰無仮説について専門用語も数式も使わずにざっくりとしたイメージを説明してしまう動画 – YouTube
https://www.youtube.com/watch?v=y0g7OuJpTno

熊野コミチ 統計とお仕事チャンネル – YouTube
https://www.youtube.com/channel/UCxGR5omDLIXBu6yOrvOJ-2w

予備校のノリで学ぶ「大学の数学・物理」 - YouTube
https://www.youtube.com/channel/UCqmWJJolqAgjIdLqK3zD1QQ

都立高校 情報科教諭ブログ
https://inagaki-shunsuke.jp/

数学嫌いのための社会統計学〔第2版〕
https://www.amazon.co.jp/s?k=%E7%B5%B1%E8%A8%88%E5%AD%A6+%E6%95%B0%E5%AD%A6%E5%AB%8C%E3%81%84&ref=nb_sb_noss
※佛教大学 情報科教員養成 基礎統計学のテキスト

文部科学省 「情報Ⅰ」教員研修用教材
https://www.mext.go.jp/a_menu/shotou/zyouhou/detail/1416756.htm

詳細(情I703 高校情報I Python)|情報|高等学校 教科書・副教材|実教出版 (jikkyo.co.jp) 検定通過版
https://www.jikkyo.co.jp/book/detail/22023322

令和4年度新版教科書「情報Ⅰ」|高等学校 情報|日本文教出版 (nichibun-g.co.jp)検定通過版
https://www.nichibun-g.co.jp/textbooks/joho/2022_joho01_1/textbook/

 

 

 


【高校情報共通テスト対策/学習塾/個別指導】二項分布と正規分布/ベルヌーイ試行/Z値・期待値/標準正規分布エクセルグラフ作成【高校情報1授業】

2021-11-20 22:05:59 | 日記

二項分布と正規分布/ベルヌーイ試行/Z値・期待値/標準正規分布エクセルグラフ作成【高校情報1授業・共通テスト対策】

 

 

高校情報1 教科書・参考書・問題集・プログラミング・共通テスト

高等学校 情報Ⅰ(情報1)の動画教科書・参考書・問題集です。授業・プログラミング対策/定期試験対策に利用可能!大学入学共通テスト「情報1」対...

 

 

【資料ダウンロード】

PDFの他、パワーポイント、学習指導案 等の原本も無料提供しています。

情報教育の底上げが目的なので、資料を修正して、学校・塾(営利目的含む)の授業等で利用して頂いて問題ありません。私への連絡不要ですが、利用する際には、YouTubeチャンネル・情報Ⅰ動画教科書・IT用語動画辞典を紹介してもらえると嬉しいです。

■PowerPoint・エクセル資料
https://toppakou.com/info1/download/27_ADVANCE_データの分布と検定の考え方/01_二項分布と正規分布/01_二項分布と正規分布.pptx


https://toppakou.com/info1/download/27_ADVANCE_データの分布と検定の考え方/01_二項分布と正規分布/標準正規分布のグラフ.xlsx

■簡易学習指導案
https://toppakou.com/info1/download/27_ADVANCE_データの分布と検定の考え方/01_二項分布と正規分布/【学習指導案】27A_01_二項分布と正規分布.docx

【文字おこし】

今回は、統計関連の二項分布と正規分布について解説していきます。

前回の動画で説明した分散と標準偏差に関する事前知識が必要なので、知識の習得が未だの方は概要欄に貼ってある、分散と標準偏差に関する知識をみにつけてからこの動画を見てください。

まずは、二項分布について説明していきます。

世の中には2つの状態で表されるものが沢山ありますよね。

例えば、コインを投げた時に表が出るか、裏が出るか。
実験を行ったときに、成功するか、失敗するか。
6面体のサイコロにしても、1がでるか、それ以外が出るかと2つの状態に言い換えることもできます。

コインを投げた時に表が出るのは、普通に考えると2回に一回なので、確率は2分の1になります。

コインの表が出たら1点 裏なら0点として、4回投げて合計が1点 つまり表が1回だけ出る確率を求めていきましょう。

左側に分岐のパターン、右側には点数の合計の数 つまり合計の度数分布を表しています。

まず初めの1回目は 表と裏のパターンがあり裏なら0点 表なら1点となります

2回目について
一回目が裏のパターンから裏と表のパターンがあり裏なら1回目の点数も0なので0点、表なら1点となります。

1回目が表の場合も2回目は裏と表があります。
裏の場合は合計値は一回目1点+2回目0点で1 
表の場合は、一回目1点 2回目1点で 2となります。

合計の度数の分布は、0点が1つ 1点が2つ 2点が1つとなります。

3回目も同様に分岐させて、表の場合は2回目までの合計に+1点します。
 合計の度数の分布は、0点が1つ 1点が3つ 2点が3つと 3点が1つとなります。

4回目も同様に分岐させて、表の場合は3回目までの合計に+1点します。
 合計の度数の分布は、0点が1つ 1点が4つ 2点が6つと 3点が4つ すべてで表が出た4点は1つとなります。

つまり、コインを4回投げた時に表が1回だけ出るのは度数が1のパターンで16分の4 を約分して四分の1の確率となります。

この確率はグラフ全体の度数の合計値に対する該当する範囲の度数の割合と同じになります。

試行結果が表か裏、成功か失敗、勝ちか負けか、1かそれ以外かのように2通りしかない試行をベルヌーイ試行といいます。

今回はこのベルヌーイ試行を4回行いましたが
ベルヌーイ試行を複数回行った場合で、ある事象が何回起こるかの確率分布を二項分布といいます。

今度は成功か失敗のパターンで確率を変えて考えていきます。

1回で成功する確率をpとします。
そして、実験した回数(試行回数)をn回とします。
そして、実験で成功した回数をkとします。

n回試してk回成功する確率Pを求めていきます。


このkの値を色々変えていきながらグラフに表したものを二項分布と言います。

P(X=k) はk回成功した場合の確率という意味です。
それを求めていきます
n回の内k回が成功のパターンで
成功の確率はpでそれをk回行うのでpのk乗となります。
逆に失敗の確率は、全体から成功の確率を引けばいいので1―p となります。
失敗の回数は試行回数nから成功の回数kを引いてあげればいいのでn-kとなります。

そしてn回のうちk回が成功するパターンは
例えば3回の内 1回が成功の例だと
成功 失敗 失敗
失敗 成功 失敗
失敗 失敗 成功 
の場合があります。

そのパターンの分も掛け合わせる必要があり、それはnCkで表されます。

つまりパターン数×n回の内k回の成功確率×n回の内 失敗の確率 となります。

二項分布のグラフで表すと

縦軸を確率P(X=k) 横軸を成功回数kとすると

試行回数n回の内 成功回数のkが0の時の確率、kが1回の時の確率 kが2回の時の確率というようにkを増やしていき 一番右側のパターンはn=kなので すべて成功したパターンの確率となります。

※さっきのパターン
 一番初めに説明したコイン投げのパターンに当てはめてみましょう。
表が出る確率が2分の1なので0.5 試行回数4回で、 表が1回出る確率を公式に当てはめて求めると
 4C1×0.5の1乗 ×(1-0.5)4-1乗となり
 
4 ×0.5× 0.125 =0.25 となり 先ほど図を書いて計算した結果と一致しました。

確率的に期待される期待値というものがあります。

例えば、この二項分布のグラフの場合、5が期待値で、最も確率が高いことが分かります。
期待値の求め方は公式があって 事象が起こる確率×試行回数で求められます。
例えば成功確率が3分の1 試行回数が30回の場合は 3分の1×30で10回が期待値となります。

―――
二項分布のグラフは、試行回数を増やしていくとこのような左右対称の曲線に近づきます。
言い換えると、中央の値の発生頻度が最も多く、それを中心に左右対称で発生頻度が少なくなります。このような分布を正規分布と言います。


平均が0、分散が1 つまり標準偏差が1の正規分布を標準正規分布と言います。

平均が0というのはわかりずらいかもしれませんが
例えば1とー1の平均は0となります。


――
このグラフで囲まれた面積全体を1とすると、
横軸の値をZとして、Zが0と1 の間の面積は 全体の34.13%を占めます。左右対称なので0とー1の間の面積も全体の34.13%となります。
範囲を広げて0~2の間の面積は、全体の47.72%を占めます。左右対称なので0とー2の間の面積も全体の47.72%となります。
つまり、―2~2の間で全体の95.44%の面積となります。

Zが4~―4の範囲は面積全体の100%となります。

横軸をZと言いましたが、あるデータxが平均値(μミュー)からどれだけ離れているかを、標準偏差σ(シグマ)を単位として示した値を Z値 と言います。

Z値の求め方は、標準偏差σ 分の 値x ― 平均μ で求めることができます。

正規分布表と比べながら、具体的な例でみていきましょう。

情報の試験を行ったときの平均点が55点 標準偏差が10の場合
65点の生徒が上位何パーセントの位置にいるかを調べていきましょう。
この試験の得点は正規分布に従うものとする
まずZ値は 標準偏差 10 分の 生徒点数の65―平均値の55をすると1.0となります。
先ほどの標準正規分布の表では、この1から4の間の面積の割合は15.87%
なので、上位15.87%ということが分かります。


最後にエクセルを使って、標準正規分布のグラフを作成していきます。
Zをー4から4の範囲で0.1間隔とします。
はじめのー4とー3.9を入力した後は二つを範囲指定して、右下の黒■の上にマウスカーソルをあてて、下にドラックすれば簡単に4までの数字が自動入力されます。
Y軸の確率の計算は、ノーマルスタンダードディストリビューション関数を使います。
NORM.S.DISTの関数を選んで 第一引数にZ値のセルを選びます。
第二引数をFalseにすると 値がZの時の標準正規分布の値を算出してくれますので今回はFalseとします。
True にすると値がZ以下の範囲の標準正規分布の割合を出してくれます。
1行目について算出されたので、オートフィルを使って関数を下にコピーします。

個人的な感想ですが、
このノーマルスタンダードディストリビューション関数って名前物凄くかっこよくないですか?男性生徒は女子に標準正規分布グラフを教える機会があれば、
ノーマルスタンダードディストリビューション関数使えば簡単だよ と言えば、モテモテかもしれません。

グラフにしたい範囲を範囲指定して、挿入からおすすめグラフで折れ線グラフを選べば、標準正規分布のグラフが描けます。

今日の二項分布と正規分布の授業は以上になります。
最後までご視聴ありがとうございました。

【解説重要用語】
オ二項分布、ベルヌーイ試行、正規分布、標準正規分布、期待値、Z値、正規分布(Excelグラフ)、NORM.S.DIST関数(ノーマル・スタンダード・ディストリビューション関数)

★私の目標
「とある男が授業をしてみた」 の葉一さん
https://www.youtube.com/user/toaruotokohaichi
※Google社に招待頂いた、「YouTube教育クリエイターサミット2020」で
 葉一さんと文部科学省・Google役員の対談セッションに感銘を受けて、高校情報講座スタートしています。

【参考サイト・参考文献】

参考サイト(YouTube動画)ソフトキャンパスExcel学校https://www.youtube.com/watch?v=a9uh9s3bQh4

文部科学省 「情報Ⅰ」教員研修用教材
https://www.mext.go.jp/a_menu/shotou/zyouhou/detail/1416756.htm

詳細(情I703 高校情報I Python)|情報|高等学校 教科書・副教材|実教出版 (jikkyo.co.jp) 検定通過版
https://www.jikkyo.co.jp/book/detail/22023322

令和4年度新版教科書「情報Ⅰ」|高等学校 情報|日本文教出版 (nichibun-g.co.jp)検定通過版
https://www.nichibun-g.co.jp/textbooks/joho/2022_joho01_1/textbook/


その他、情報処理技術者試験(全レベル1~4)/IT企業15年勤務(システム技術部 部長)経験から培った知識を交えながら解説しています。

かわいいフリー素材集 いらすとや (irasutoya.com)
https://www.irasutoya.com/

#高校情報 #標準正規分布 #統計学

 

 

 


【高校情報共通テスト対策/学習塾/個別指導】分散と標準偏差・偏差値/四分位数と箱ひげ図/度数分布表とヒストグラム/尺度/オープンデータ【高校情報1授業】

2021-11-20 22:04:58 | 日記

分散と標準偏差・偏差値/四分位数と箱ひげ図/度数分布表とヒストグラム/尺度/オープンデータ【高校情報1授業・共通テスト対策】

 

 

高校情報1 教科書・参考書・問題集・プログラミング・共通テスト

高等学校 情報Ⅰ(情報1)の動画教科書・参考書・問題集です。授業・プログラミング対策/定期試験対策に利用可能!大学入学共通テスト「情報1」対...

 

 

【資料ダウンロード】

PDFの他、パワーポイント、学習指導案 等の原本も無料提供しています。

情報教育の底上げが目的なので、資料を修正して、学校・塾(営利目的含む)の授業等で利用して頂いて問題ありません。私への連絡不要ですが、利用する際には、YouTubeチャンネル・情報Ⅰ動画教科書・IT用語動画辞典を紹介してもらえると嬉しいです。

■PowerPoint・エクセル資料
https://toppakou.com/info1/download/25_データの収集と整理/25_データの収集と整理_27_統計量と尺度.pptx

https://toppakou.com/info1/download/25_データの収集と整理/エクセル資料.xlsx
■簡易学習指導案
https://toppakou.com/info1/download/25_データの収集と整理/【学習指導案】25_データの収集と整理_27_統計量と尺度.docx

【文字おこし】

今回はデータ分析関連で、四分位数、箱ひげ図、ヒストグラム、分散、標準偏差、尺度などについて解説していきます。

以前のデータベースの授業で埼玉県川越市のAED設置場所の一覧であるオープンデータを使って、人口密度とAEDの設置件数の関係を調べました。


他には、気象庁は気象データ 国土交通省は防災データ 総務省統計局は 人口データ等をオープンデータとして公開しています。

気象庁|最新の気象データ (jma.go.jp)
https://www.data.jma.go.jp/obd/stats/data/mdrr/index.html

防災情報XML - DATA GO JP
https://www.data.go.jp/data/dataset/mlit_20170902_0034

統計局ホームページ/人口推計 (stat.go.jp)
https://www.stat.go.jp/data/jinsui/

データはカンマ区切りのCSV形式、タグで構造化されたXML形式などで提供されています。データを読み込むアプリケーションが対応している形式のものを利用します


これらは、統計学や情報技術を使ったデータ分析によって、客観的で信頼できる情報を取り出す技術の開発が進んでいます。

そして、この先どのような変化が予想されるかなどを模擬環境で検証を行うシミュレーションが一般化してきて問題解決・技術の発展に寄与しています。

ICTを活用した問題解決手法を身につけることはこれからの社会で必要な資質となっていて、高校の情報科目でもその資質が身につけることを1つの目標としています。

―――
データは複数組み合わせることによって新たな情報が生まれ、さらに有効な解決策を見つけられることがあります

例えば A地点の日時と雨量のデータとB地点の日時のデータがあったとします。
そして、A地点の日時と川の水位のデータがあった場合

日時をキー項目にしてお互いのデータを紐づけることができます。
この紐づけをリレーションシップと言います。

データベースの授業でも説明しましたが、
お互いの表を日時をキーに結合しデータの比較をすることができます。


★四分位数と箱ひげ図★

得られたデータの特徴を表す主な統計量について説明していきます。
まずは、四分位数と箱ひげ図について学んで、埼玉県熊谷市の気温のデータ分析をしていきます。

まず四分位数とは、
データ全体を4等分したときの境目の数のことになります。
2等分した場合の、ど真ん中の値を中央値といいます。四分位数は4等分なのでいいかえれば中央値の進化系になります。

例えばこの図がデータ全体だとすれば、4等分したければ、こんな感じで区切ります。
この4等分する位置にある値を四分位数といいます。
左から第1四分位数、第2四分位数、第3四分位数といいます。

第1四分位数はQ1、第2四分位数はQ2、第3四分位数はQ3とも呼びます。
そして、第2四分位数はちょうど真ん中に来ています。つまり第2四分位数は中央値のことになります。

具体的に簡単な数を当てはめていきます。、
1、3、6、8、10、13

まず、四分位数を求める上で、数値を小さい順に並び変える必要があります。
ならびかえると
1、3、6、8、10、13
の順になります。

そしてこれを四等分にします。
まずは、真ん中でぱっくりわけます。
ちょうど真ん中で分けると、中央の線は6と8の間になります。
その場合は二つの数の平均をとって7が中央値つまり第2四分位数となります。

第1四分位数は、さっき線を引いた中央より左側の中で真ん中になるのは3になります。
これはちょうど3がど真ん中になるので平均を求める必要はなく、3が第1四分位数となります。

第3四分位数は、さっき線を引いた中央より右側の中で真ん中になるのは10になります。これもちょうど10がど真ん中になるので平均を求める必要はなく、10が第3四分位数となります。

――――――
今は偶数個のデータでやりましたが、奇数個でも確認していきましょう。。
さっきのデータの最後に15を追加して7つとします。
1、3、6、8、10、13、15
丁度ど真ん中は、8だから、第2四分位数の中央値は8となります。
第1四分位数は、ど真ん中から左側のグループで真ん中は3なので、第1四分位数は3となります。
第3四分位数は、ど真ん中から右側のグループで真ん中は13なので、第3四分位数は13となります。
――――――――

では、今度は四分位範囲と四分位偏差について説明していきます。。
これはデータの散らばり度合いを示す値になります。

四分位範囲は、四分位数の中で一番大きい第3四分位数から、一番小さい第1四分位数を引いた数のことになります。図で示すとQ1からQ3までの範囲となります。

そして、四分位偏差は、この四分位範囲を2で割ったものになります。
式であらわすと、2分の(Q3―Q1)となります。

一番初めに求めた四分位数の例で、具体的数を当てはめていきましょう。
まず第3四分位数は10、第一四分位数は3なので
四分位範囲は10―3で7となります。

四分位偏差は四分位範囲を2でわったものなので2分の7で3.5となります。

この四分位数は箱ひげ図という図で表すことができます。

その名の通り、箱からヒゲが伸びた感じの図になります。

まず、箱の左側は第1四分位数を表しています。箱の右側は第三四分位数
箱の中にある線は、第2四分位数である中央値を表しています。
この図の中に平均値を表すことが可能、その場合は+の記号を書きます。
そしてヒゲの左端は最小値、ヒゲの右側は最大値を表しています。

箱ひげ図は、このような感じで、たて書きで表す場合もあります。

箱ひげ図には、外れ値というものが記述されていることがあります。
外れ値は、ばらつきを見るうえで、極端に小さな値や大きな値を分布の範囲から外だしにします。

外れ値は、四分位範囲の1.5倍を基準とします。

今回は四分位範囲は7なので、7×1.5は10.5
第3四分位数の10に10.5をプラスすると20.5となり、この20.5を超えるものは外れ値となります。
最小も同じように、第1四分位数の3から10.5をマイナスしたー7.5を下回るものは外れ値となります。

この図の中で最大値の右側に外れ値があった場合は、
外れ値以外の中で最大値という意味になります。

四分位数はエクセルの関数でも求めることができます。

熊谷市の最高気温のデータを利用して確認していきましょう。
気象庁のホームページから過去の気象データのダウンロードができます。
概要欄にもリンクを貼っておきます。


地点を選ぶで埼玉県の熊谷市を選択します。
項目を選ぶで、データの種類は日別値、気温タブの最高気温にチェックを入れます。

そして、期間を選ぶをクリックしてダウンロードし

期間は2017年と2018年の気温のデータを丸ごとダウンロードします。

落としたデータの7月1日から8月31日までのデータを抽出した表がこちらになります。

エクセル関数で最高、最低、四分位数、平均を求めていきます。
まずは最高は、MAX関数を使います。最高値を求めたい範囲を選ぶと、2017年は37.8 2018は41.1となります。
第3四分位数はQUARTILE.INC(クォータイル・ インクルーシブ)関数を使います。
範囲を指定して、第二引数は第3四分位数を意味する3を入れます。
小数点以下第二位を四捨五入して第一までの表示とすると
2017年は34.6 2018年は37.4 となります。
中央値はさっきのQUARTILE.でも可能ですが、今回はMEDIAN(メジアン)関数を使います。
2017年は32.2 2018は35.4となります。
第1四分位数は第3四分位数と同様にQUARTILE.INC(クォータイル・ インクルーシブ)を使います。範囲を指定して、第二引数は第1四分位数を意味する1を入れます。
2017年は29.1 2018は31.9となります。
最低は、MIN関数を使います。
範囲を指定すると、2017年は23 2018は23.4となります。

平均値はAVERAGE関数を使います。範囲を指定すると
2017年は31.7 2018年は34.3となります。

これを箱ひげ図でも表していきます。
2017年と2018年のデータを纏めて範囲指定します。この時日付を範囲指定すると上手くいかないので気を付けてください。
そして、挿入タブからおすすめグラフを選びます。
すべてのグラフのタブを選んで、メニューの中から箱ひげ図を選んでそのままOKをクリックします
箱ひげ図が表示されました。このグラフより2018年の方が全体的に気温が高くなっていることが分かります。

★機器の不具合などによりデータがずれたり、取得できなかったりしたりすることがあります。

測定値と真の値とのずれを誤差と言います。

また、何らか理由によりデータを取得できなかった場合のデータを欠損値といいます。
欠損値は、場合によっては、前後の値の平均値を使うなどで推測値として補うこともあります。

データによっては、今回の様な数値ではなく報告書や文書のアンケート、写真などの場合があります。
文章を解析して、単語や文節などの要素を取り出し、これらの出現頻度や関係性等から情報を読み解く技術を、テキストマイニングと言います。

――

★度数分布表とヒストグラム★

テストの成績の分布など、その点数の範囲に何人の人がいるかを表したりする表に、度数分布表があります。
この60点以上、69点以下の範囲に200人の人がいることが分かります。
度数分布表では、この何点から何点までなどの範囲を示すものを階級と言います。
そして、その範囲に属する人数や個数を表す値を度数と言います。

この度数分布表を棒グラフで表したものをヒストグラムと言います。

先ほどの箱ひげ図と対応づけると、視覚的に比較がしやすくなったりします。

★分散と標準偏差★


データの散らばり具合を表すものとして、分散と標準偏差があります。

たとえば、とあるクラスの情報と数学のテストの点数の一覧で確認していきましょう。
情報はパット見た目60点前後が多いように見えます。
数学は20~90点台まで色んな点数があります。

分散や標準偏差はこのような散らばり具合を数値で表わせます。

まずは、分散から説明します。
分散はデータ全体が平均値とどれくらいずれているかの度合いを数値化したものになります。

この情報も数学も平均点は60点です。

情報は60点前後が多く平均点からのずれが小さいデータになります。
数学は点数の幅が広く平均点からのずれが大きいデータになります。
まず情報のデータについて分散を求めていきます。
まず、それぞれの点数が平均点とどれくらいずれているかを書き出します。

たとえば 65点の場合は65―60で5となります。
55点のばあいは 55―60でー5となります。

求めた値をそれぞれ2乗して、データの個数で割ってあげます。
計算すると55.4となりこの値が分散になります。

数学も同様に計算すると分散は483.8となります。
数値が大きいほど平均点からのばらつきがあるので、この結果より数学の方がばらつきがあることが分かります。

この求めた分散の値にルートを付けます。これを標準偏差といいます。

小数点以下第二位を四捨五入すると、
情報の標準偏差は7.4 数学は22.0となります。

大学入試の模擬試験などで用いられる偏差値はこの標準偏差を元にして求めることができます。

50+(得点―平均値)÷標準偏差×10になります。

例えば 情報の得点65点だった場合で平均60点 標準偏差が7.4の場合
50+(65―60)÷7.4×10

偏差値は約56.8となります。

同じく数学の得点が65点だった場合で平均60点 標準偏差が22場合
50+(65―60)÷22×10
偏差値は約52.3 となります。

標準偏差が小さいほどばらつきが小さくなり、グラフで表すとこのような縦に長いものとなります。標準偏差が大きいほどばらつきが大きくなり、グラフは標準偏差が小さいものに比べて低く幅広くなります。


今話した内容を公式で表します。

標準偏差をσ(シグマ)、x1からxnはデータの値、エックスバーは平均値、nはデータの個数とすると
分散 σ2乗 は、各項目の平均との差分の2乗を足して、それをデータ個数のnで割ってあげます。

標準偏差はその分散の公式にルートを付けたものになるので、分散は標準偏差の2乗なのでルートの外に出すと標準偏差となります。


分散と標準偏差はエクセル関数でも求めることができます。

分散はVAR.P(バリアンス・ピー)関数を使います。
値の範囲を指定するとこのように分散が算出できます。

標準偏差はSTDEV.P(スタンダード・ディビエーション・ピー)関数で求めることができます。
値の範囲を指定するとこのように標準偏差が算出できます。


データ尺度

データは、大きく量的データと質的データに分けられます。

量的データは、数量的な意味があり計算が可能なものになります。
データの値を決める基準を尺度と言いますが、尺度によって細分化されます。
量的データの尺度は間隔尺度と比率尺度に分かれます。
間隔尺度は、西暦や気温のように、数値の間隔が数量として意味を持つ尺度になります。

比率尺度は、長さや年収と言った、数値の比にも数量として意味を持つことになります。
例えば、年収が1500万円の人は500万円の人の3倍の収入であるといった比率で表すことでも意味を成します。

質的データは、数量的な意味がなく分類として意味を持つものになります。
質的データの尺度には名義尺度と順序尺度があります。
名義尺度のデータは、数値としての意味を全く持たないデータで、例えば性別や血液型、好きな食べ物など、ことなる分類として区別することだけに意味を持つ尺度になります。

順序尺度は、通知表などの成績評価や、服のS、M、Lのサイズというように、分類の順序に意味を持つ尺度になります。


今日の授業は以上になります。最後までご視聴ありがとうございました。

【解説重要用語】

オープンデータ、四分位数、四分位範囲、四分位偏差、箱ひげ図、外れ値、誤差、欠損値、テキストマイニング、度数分布表、階級、度数、ヒストグラム、分散、標準偏差、偏差値、量的データ、間隔尺度、比率尺度、質的データ、名義尺度、順序尺度

★私の目標
「とある男が授業をしてみた」 の葉一さん
https://www.youtube.com/user/toaruotokohaichi
※Google社に招待頂いた、「YouTube教育クリエイターサミット2020」で
 葉一さんと文部科学省・Google役員の対談セッションに感銘を受けて、高校情報講座スタートしています。

【参考サイト・参考文献】
tkmium note(共通テスト対策・プログラミング・情報教育全般)
★情報関係基礎の過去問解説が充実しております!
https://tkmium.tech/

文部科学省 「情報Ⅰ」教員研修用教材
https://www.mext.go.jp/a_menu/shotou/zyouhou/detail/1416756.htm

詳細(情I703 高校情報I Python)|情報|高等学校 教科書・副教材|実教出版 (jikkyo.co.jp) 検定通過版
https://www.jikkyo.co.jp/book/detail/22023322

令和4年度新版教科書「情報Ⅰ」|高等学校 情報|日本文教出版 (nichibun-g.co.jp)検定通過版
https://www.nichibun-g.co.jp/textbooks/joho/2022_joho01_1/textbook/


その他、情報処理技術者試験(全レベル1~4)/IT企業15年勤務(システム技術部 部長)経験から培った知識を交えながら解説しています。

かわいいフリー素材集 いらすとや (irasutoya.com)
https://www.irasutoya.com/


【高校情報共通テスト対策/学習塾/個別指導】セキュリティ技術入門(デジタル署名、公開鍵・秘密鍵、TLS/SSL(HTTPS)、VPN、ブロックチェーンなど)【高校情報1授業・基本情報技術者

2021-11-20 22:03:27 | 日記

セキュリティ技術入門(デジタル署名、公開鍵・秘密鍵、TLS/SSL(HTTPS)、VPN、ブロックチェーンなど)【高校情報1授業・基本情報技術者・共通テスト対策】

 

 

高校情報1 教科書・参考書・問題集・プログラミング・共通テスト

高等学校 情報Ⅰ(情報1)の動画教科書・参考書・問題集です。授業・プログラミング対策/定期試験対策に利用可能!大学入学共通テスト「情報1」対...

 

 

【資料ダウンロード】

PDFの他、パワーポイント、学習指導案 等の原本も無料提供しています。

情報教育の底上げが目的なので、資料を修正して、学校・塾(営利目的含む)の授業等で利用して頂いて問題ありません。私への連絡不要ですが、利用する際には、YouTubeチャンネル・情報Ⅰ動画教科書・IT用語動画辞典を紹介してもらえると嬉しいです。

■PowerPoint・問題集
https://toppakou.com/info1/download/24_安全のための技術/24_安全のための技術.pptx

■簡易学習指導案
https://toppakou.com/info1/download/24_安全のための技術/【学習指導案】24_安全のための技術.docx

【セキュリティ技術の教科書 文字おこし】

今回は、主要なセキュリティ技術について公開鍵暗号方式、電子署名、SSL・TLS・ブロックチェーンなど幅広く解説していきます。

■デジタル署名・公開鍵暗号方式・ハッシュ値(メッセージダイジェスト)■

はじめに問題です。

差出人がミライで3通の手紙が届きました。2通は偽物の未来が書いたものです。
本物のミライはこのようなハンコを持っています。
本物のミライから届いた手紙はどれでしょう。

回答ありがとうございます。
正解は2番です。
本物のミライしか持っていないハンコが押印しているから、2番が正解となります。
現実の世界なら、公的機関が発行する、印鑑証明書があれば更に信用力が増しますよね。

インターネットの世界でも、届いた文書が送信者本人が差し出したか、そして途中で書き換えられていないかどうかということが判断できる仕組みがあります。
それをデジタル署名と言います。今日はこのデジタル署名について基礎から詳しく説明していきます。


まず、暗号化、復号、鍵の基礎用語について説明します。
暗号化
データの内容を第三者にわからなくする技術または手法
「こんにちは」という文字列があった場合、このような意味不明な文字に変換され解読不可能になります。

そして復号は
暗号化されたデータをもとのデータに復元することになります。
復号は「復号化」と最後に「化」漢字を付与してはいけません。

この暗号化されていないデータのことを平文と言います。

この、暗号化と復号には鍵というものを使います。
鍵と言っても、物理的な鍵ではなく、パスワードの文字列の様なものになります。


今から説明する、デジタル署名は、公開鍵暗号方式とハッシュ関数という大きく2つの技術を使っています。

まず、公開鍵暗号方式について説明していきます。
==
公開鍵暗号方式は、暗号化と復号に使う鍵が異なるものになります。
鍵ペアと言って秘密鍵と公開鍵の2種類の鍵を使います。

秘密鍵で暗号化したデータを復号できるのは公開鍵だけになります。


公開鍵で暗号化したデータを復号できるのは秘密鍵だけになります。

その名の通り、秘密鍵は、発行した本人以外知られてはいけない鍵になります。
一番初めのクイズの例で言ったら、本人しか持っていないハンコの様なものです。
一方、公開鍵はその名の通り公開情報なので、漏れても良い情報になります。

こんどは、ガッキーからミライに公開鍵暗号方式を使って、
第三者に漏れないように、文書を送ります。

まず、前準備としてミライが公開鍵と秘密鍵の鍵ペアを生成します。
そして、秘密鍵は漏らしたらいけない情報なので、ミライの公開鍵の方をがっきーにあらかじめ渡しておきます。

そして、がっきーはミライの公開鍵を使って、文書のデータを暗号化し、送信します。
途中で、通信が傍受されてもミライの秘密鍵でしか復号できなので、文書の中身はわかりません。

そして、ミライに届いたとき、ミライが持っている秘密鍵で復号すれば、平文にもどり
ミライは中身を確認できます。

――
こんどは逆にミライからガッキーに手紙を送りましょう。
ミライの秘密鍵でメールを暗号化してガッキーに送付します。
ガッキーはミライの公開鍵で復号ができます。
でも、ここで疑問に思われた方がいると思います。
公開鍵は公開情報だからガッキー以外も手に入れることができます。盗聴された場合にミライの公開鍵を使って復号ができてしまいます。

実はこのパターンは、ミライ本人から送られてきたことが分かるのです。
ミライの秘密鍵はミライ本人しか持っていません。
ミライしか持ってない秘密鍵で暗号化できた文書を、ミライの公開鍵で復号できたということでその文書がミライ本人から送られてきたという証明になります。
セキュリティ用語で、「真正性」が確認できたといいます。

---
次に、ハッシュ値について説明していきます。

ハッシュ値はメッセージダイジェストとも言います。
直訳すると、「文書の要約」という意味ですが、どんなに長い文書でも、ハッシュ関数という、機能を使うことで決められた短い文字列が返却されます。
このときハッシュ関数から戻される値をハッシュ値といいます。
要約と言いましたが、ハッシュ値から元の入力値が何だったかということは推測することは出来ません。

ここまでで、いったい何の役に立つんだと思われている方が多いと思います。

このハッシュ値にはいくつか特徴があります。
・たとえば入力値が同じ内容なら、何度ハッシュ関数に入れても同じ値が返却されます。
・逆に入力文字を少しでも変えると全く違うハッシュ値になります。

具体的な例で説明していきます。

ミライからがっきーに文書を送るときの例で説明していきます。
分かりやすくするために暗号化は無しとします。

まずミライは、送信する予定のメッセージをハッシュ関数に入れて、ハッシュ値を求めます。
ここでは、ハッシュ値をabc123としましょう。
そして、そのハッシュ値とセットでメッセージを送ります。

しかし、途中で悪人がいてメッセージの内容を変更したとします。


メッセージをうけとったがっきーは、ミライと同じハッシュ関数を使ってメッセージのハッシュ値を求めます。そのハッシュ値とミライから送られてきたハッシュ値を突き合わせます。途中メッセージが書き換えられて入力情報が変わったので、ハッシュ値が一致しません。
がっきーは、このことで途中でメッセージが書き換えられている、つまり改ざんされているということを検知することができます。

つまり、ハッシュ値は改ざん検知で用いられます。
このメッセージが改ざんされていないこと。つまり完全であることをセキュリティ用語で「完全性」といいます。

デジタル署名はこのハッシュ値と公開鍵暗号方式を混ぜ合わせた方式になります。

ミライからがっきーにメッセージを送る流れで説明していきます。

まず、ミライは先ほどと同じように送信するメッセージをハッシュ関数に入れてハッシュ値を算出します。
そして、得られたハッシュ値を自分自身の秘密鍵で暗号化します。
この秘密鍵で暗号化したハッシュ値をデジタル署名といいます。

そして、デジタル署名とメッセージを一緒に送信します。

がっきーは届いたデジタル署名をミライの公開鍵で復号します。。
復号できた時点で、ミライ本人から送られてきたということつまり、真正性が証明できます。

そして、届いたメッセージをハッシュ関数に入れてハッシュ値を求め、
先ほどミライの公開鍵で復号したハッシュ値と突き合わせます。

値が一致すれば、改ざんされていないことが証明されます。

つまり、デジタル署名は、真正性確認と完全性確認ができるということです。

今話した内容は、ミライの公開鍵自体が本物であることが前提です。
その公開鍵が本物つまりミライ本人の物であることを、第三者機関が証明するものがあります。それが、デジタル証明書です。

印鑑証明も、自らのハンコを、第三者機関である役所が本物であることを証明してくれますよね。

デジタル証明書もこれと似たイメージで、ミライはあらかじめ自身の公開鍵を信頼できる第三者機関に申請して、デジタル証明書を発行してもらいます。
この第三者機関のことを、認証局やCAと言ったりします。

先ほどのメッセージとデジタル署名を送信するときに、デジタル証明書も一緒に送付します。
証明書の中には、ミライの公開鍵が入っていて認証局がこれは本物ですとお墨付きを与えています。

デジタル証明書の詳細はまた別動画で説明します。

それでは、今日の要点確認です。
デジタル署名について
・ハッシュ値を利用することでメッセージが改ざんされていないことを確認できます。つまり完全性の確認ができます。

・公開鍵暗号方式を利用することで、秘密鍵を持つ本人がメッセージを送付したことが証明できます。つまり真正性の確認ができます。

・公開鍵自体の信頼性は、認証局(CA)が発行するデジタル証明書で確認できます。

 

※上記は、一般的な入門書(高校情報教科書・情報処理技術者試験入門書含む)の内容をベースに解説しております。
 
 公開鍵暗号方式などの詳細・最新情報は以下のブログが参考になります。

 


■共通鍵暗号方式■

共通鍵暗号方式は暗号化と復号に使う鍵が同じものになります。

例えば、がっきーからミライに、メッセージを送信する場合で考えていきましょう。
共通鍵はあらかじめ何らかの方法でお互い同じ鍵を持っていることが前提です。

「こんにちは」というファイルを共通鍵で暗号化します。
通信経路上などで誰かに通信が傍受されても、それが、「こんにちは」の文字であることはわかりません。

そして、ミライに届いたとき、ミライが持っている共通鍵で復号すれば、平文にもどり
ミライは中身が「こんにちは」の文書であることを認識できます。

もっとも簡単な共通鍵暗号方式の例に、文字を任意の文字数分ずらして他の文字に置き換えて暗号化するシーザー暗号というものがあります。

たとえば 「3文字後ろにずらす」というのを鍵にします。

EJという文字を暗号化すれば、アルファベット順に3文字ずらした HM  というのが暗号文になります。共通鍵を持っていれば暗号化方式は分かっているので復号する際は、3文字前にずらします。


今話した共通鍵暗号方式と公開鍵暗号方式を比較していきます。
共通鍵暗号方式のは
 お互いに同じ鍵を共有する方法が難しいのが特徴です。
 インターネットでやり取りする場合、 鍵自体(暗号化していない)を受け渡す際に
 通信が傍受される可能性があります。

公開鍵暗号方式は、公開鍵は公開情報なのでの受け渡しは容易ですが、共通鍵に比べ、暗号化と復号に時間がかかるのが特徴です。

この2つの鍵のメリットを生かして、Webページ閲覧を行う際のHTTPSでの暗号化通信
が行われています。

■SSL/TLS HTTPS■

HTTPSのプロトコルを用いることで通信が暗号化されるというのは有名な話です。
正確に言うと、HTTPSはTLS/SSLという技術を使ったWebアクセスプロトコルです。

後から詳しく説明しますが、TLSはSSLの進化版で、SSL自体は暗号化したデータが第三者に見破られるPOODLEという脆弱性が発見されているので、現在は、ほとんどTLSに置き変わっています。

こちらのサイトでTLS/SSLの導入割合が分かりますがほとんどがTLSへ移行済みということが分かります。

SSL自体は非常に歴史があるので、実際はTLS通信を行っていても、SSL通信と呼ばれることも多いです。

ここではTLS通信という呼び名で説明させていただきます。


はじめにHTTPとHTTPS通信のざっくりとした比較を説明します。

まずTLSを使わないHTTP通信は
Webブラウザで見たいWebページのURLのリンクをクリックしたときに
WebサーバとのTCPコネクションの確立が行われます。
WebブラウザからSYNフラグの送出、それを受け取ったWebサーバからSYN/ACKフラグの返答、それを受け取ったWebブラウザはACKフラグの返答をします。
この一連の流れを3ウェイハンドシェイクと言います。
そしてその後に欲しいWebページの依頼をWebサーバにおこない、Webサーバはデータを返却します。

では、HTTPSの場合は、3ウェイハンドシェイクの後にTLSハンドシェイクを行います。
このTLSハンドシェイクのなかで暗号化に使う鍵を交換します。

そしてHTTPリクエストとレスポンスの通信が暗号化され改ざんの検知ができます。


更に掘り下げてTLSの通信を説明していきます。

TLS通信には、事前にサーバ側にサーバ証明書を登録しておく必要があります。
サーバ証明書はCA認証局と呼ばれる信頼できる第三者機関に発行してもらう必要があります。

その発行のながれを説明していきます。
まずWebサーバーの管理者は、公開鍵と秘密鍵の鍵ペアを生成します。
そして、CSRという依頼書の様なものに公開鍵を添付して送付します。
認証局は申請内容を審査して問題なければ、サーバ証明書を発行し依頼者に送付します。

Webサーバの管理者はWebサーバにサーバ証明書を登録します。

ここで発行されるサーバ証明書の中身のレイアウトを説明していきます。
HTTPS通信しているときにブラウザのURL欄に鍵マークが出ますが、鍵マークをクリックすることで、そのWebサーバのサーバ証明書を確認することもできます。

証明書のフォーマットは X.509 バージョン3(RFC5280)という仕様で定められています。
構造は「署名前証明書」「証明書の署名アルゴリズム」「認証局の署名」という大きく3つで構成されています。

署名前証明書は
 バージョン情報
シリアル番号
署名アルゴリズム
発行者(認証局)
有効期間(開始時刻、終了時刻)
発行対象の企業名など
発行対象の公開鍵
拡張領域

で成り立っています。

認証局による署名は
署名前証明書のハッシュ値をとって証明書の署名アルゴリズムを用いて認証局の秘密鍵で暗号化したデータを署名として追加したものになります。

では、TLS通信の流れを説明していきます。
前提として、Webサーバには認証局が発行したサーバ証明書が登録されています。

3ウェイハンドシェイクのあと


そしてWebサーバは認証局が発行してくれたサーバ証明書を返却します。

送られてきたサーバ証明書の署名前証明書の部分をハッシュ関数に入れてハッシュ値を算出します。

サーバ証明書に添付されいる署名を認証局の公開鍵で復号して、ハッシュ値に戻します。

そのハッシュ値を突き合わせて一致していれば、信頼できるサーバだということが分かります。

実際のデータのやり取りは、暗号化と復号が公開鍵暗号方式より高速で行える共通鍵暗号方式を使います。
クライアントは、共通鍵のもとになるランダムな値をを生成して、サーバ証明書に添付してあったサーバの公開鍵で暗号化します。その、暗号化した「鍵のもと」のデータをWebサーバに送付します。
受け取ったサーバは自らの秘密鍵で復号します。
クライアントパソコンとWebサーバはその、「鍵のもと」から暗号通信に使う共通鍵を生成します。この流れを鍵交換と言います。

次に実際のデータの送受信になります。
WebサーバからクライアントパソコンにWebページのデータを送るパターンで説明します。
送りたいデータを先ほど生成した共通鍵で暗号化します。
同時にその送信する平文データのハッシュ値も求めます。

そして、暗号化したデータとハッシュ値をセットで相手に送信します。

受信側は、共通鍵でデータを復号して平文にします。これでほしいデータは得られたのですが、途中改ざんされていないか確認するために、復号したデータのハッシュ値を求めて一緒に送られてきたハッシュ値と突き合わせて一致していれば改ざんされていない、つまり完全であることが判断できます。

まとめると、TLSを用いることによって
・認証局が発行するサーバ証明書によって通信したいサーバが本物であることが証明できます。
・鍵交換技術、共通鍵暗号を用いることで通信内容の暗号化ができます。
・ハッシュ値を使うことで改ざんされていないかの完全性のチェックが行えます。

■FIDO■

前回の授業で少し説明したパスワード地獄の救世主FIDOについて
フローを説明していきます。
FIDOは簡単に言えば、パスワードレスでサービスにログインできる仕組みで最近はそれに対応したスマートフォン端末等も増えてきています。
FIDOでは公開鍵暗号方式による電子署名を利用します。
事前準備として
FIDO対応認証機器は、公開鍵と秘密鍵の鍵ペアを生成します。
そして認証サーバ側に公開鍵を登録します。
――――
サービスを利用したいユーザは認証サーバーにログイン要求をします。
そしてサーバ側はランダムな文字列のチャレンジコードを送信します。
そして、認証器は生体認証などで本人を認証します。
認証OKの場合は、チャレンジコードを秘密鍵で電子署名して認証サーバに送付します。
認証サーバは、事前準備時に受け渡された認証機器の公開鍵で復号し自らの送ったチャレンジコードと突き合わせ一致すれば、ログインを許可します。
ここでFIDOの利点は
利便性と安全性を両立する生体認証が使えるということ
 生体認証がOKなら、送られてきたチャレンジコードを秘密鍵で暗号化するので、生体情報自体は通信経路上を流れないというメリットがあります。
FIDOの普及が進んでくると、パスワード地獄脱却の日が近いかもしれません。


■VPN■

VPNはバーチャルプライベートネットワークの略で、直訳すると仮想的な私設網のことです。

例えば、FREEwifiスポットやインターネットの世界はだれでもアクセスできて、盗聴されたりセキュリティ的に担保されていません。

また、インターネットを使わずに、東京の本社ビルと大阪の支店ビルの間を自前のリアルな施設網つまり専用線を使う場合は、膨大なコストがかかります。。
例えば大阪と東京だけなら1本だけですが全部で4拠点あるとしたら6本も専用線を引かなければなりません。

VPNという技術を使えば、インターネットの様なみんなが使う公衆網の中に、VPNトンネルという自分自身だけが使える私設網を仮想的に構築して安全な通信を実現できます。


VPNには大きくIP-VPNとインターネットVPNの二種類があります。

IP―VPNはNTTなどの通信事業者の持っている専用のネットワークを利用します。この専用ネットワークを閉域網といいます。専用線よりコストは安いですが、後から説明するインターネットVPNと比較して、導入コストは高いです。


閉域網は、インターネットと直接つながっていないので、安全性が高く遅延が発生しにくいというメリットがあります。
通信事業者が提供する閉域網までは専用線やインターネットのアクセス回線を使います。


――
次にインターネットVPNの説明をしていきます。

インターネットVPNは、その名の通り、皆が普段利用しているインターネット接続環境を流用するから、インターネット接続環境があれば直ぐに導入できるということと、低コストで実現できるというメリットがあります。

インターネットという公衆網で仮想的な別回線を作って通信します。
この仮想的な別回線のことをトンネルと言います。このトンネリングを実現するためには、その手順を定めたトンネリングプロトコルとセキュリティゲートウェイが必要になります。セキュリティゲートウェイはVPNゲートウェイとかVPNルータなどと言ったります。
今発売されているルータにもこのセキュリティゲートウェイ機能を備えているものがが多くなってきています。

このトンネリングプロトコルの代表的なものにIPSecがあります。
IPSecは Security Architecture for the Internet Protocolの略で
正確に言えばIPSec自体は1つのプロトコルではなく、IP通信そのものをセキュア化するためのアーキテクチャー つまり仕組みのことで4種類の技術から成り立っています。

1つ目は
IPで送受信されるデータをセキュア化する「セキュリティプロトコル」になります。
このセキュリティプロトコルは、IP認証ヘッダのAHとIP暗号化ペイロードのESPの2種類があります。

2つめは、セキュア化に使用する暗号鍵や認証鍵の管理方法になります。
IKEという鍵交換技術を使った動的な鍵交換方式と、手動による静的な方法があります。

3つめはセキュア化に使用する暗号化・認証アルゴリズムになります。

4つめは、IPsecを使用する2台の機器間で確立する仮想通信路のSecurity AssociationのSAになります。

通信の暗号化いえば、以前説明したTLSがあります。
TLSは、HTTPやSMTPなどTCPを使うアプリケーション層のプロトコルしか暗号化できません。
コネクションレスのUDPを使う、DNS、DHCPなどでは使えません。

しかし、IPSecはIPを使う全てのプロトコルが対象になります。

IPSecはトンネルモードとトランスポートモードの2つのモードがあります。

トンネルモードはVPNに対応したルーター間の通信、トランスポートモードはend t o endで端末間の通信になります。


■ブロックチェーン■

最近はビットコインなどの仮想通貨が有名になっていますが、この仮想通貨を支える技術にブロックチェーンがあります。

ブロックチェーンは分散型台帳の仕組みが使われています。

この台帳の意味についてはじめに説明していきます。
例えば普通の銀行でお金の預け入れや引き出しをしたときに、銀行のデータベースに取引実績を登録します。
この登録先を「台帳」といいます。

そしてこのブロックチェーンの取引実績で使われる台帳はインターネットにつながっていて世界中どこからでも使われるイメージです。

多くの人が使っているので、大量のコンピュータリソースが必要で、何台ものコンピュータがリソースの共有やデータを分散して保持しています。
取引データが正しいかもお互いのコンピュータがチェックし合っていて、正しければ台帳に書き込まれます。

ブロックチェーンのブロックは台帳の1ページの意味でそれがチェーン上につながっているイメージなので、ブロックチェーンと名付けられています。

仮想通貨を得る方法として、一般的には取引所で購入することがありますが、
もう一つはマイニング(発掘)の報酬として金銭を取得する方法があります。

ブロックチェーンは先ほど説明したように大量のコンピュータリソースを必要とするので、自身のパソコンのリソースの一部を提供して、計算を行った場合に得られる仮想通貨のことになります。

このブロックチェーンのメリットは、中央にサーバを立てなくても取引データを正しく管理できるので管理コストが低いことがあげられます。
また、ゲームやデジタルコンテンツなど幅広い分野で応用が期待されている技術でもあります。


■パリティチェック■

今まで悪意の持った人による、データ改ざんの可能性について話してきましたが、コンピュータのデータ伝送は0と1の電気信号なので、ノイズによりそのデータが書き変わってしまう可能性があります。

この誤りをチェックする仕組みにパリティチェックがあります。
パリティチェックでは、送信するビット列に対して、パリティビットと呼ばれる誤り検出符号を付加することでデータの誤りを検出します。

例えば、アルファベット Aのアスキーコードである100 0001の7ビット例でみていきましょう。

パリティビットには大きく偶数パリティと奇数パリティの2種類があります。

偶数パリティはビット列の中のパリティビットを含めた1の数が偶数になるように、パリティ値をセットします。
今回は7ビットのデータ中に1が2つと偶数個あるので、パリティビットは0となります。

途中でビット列の中の1文字が書き変わって0が1になった場合、偶数パリティにもかかわらず、1が奇数個存在するのでデータに誤りがあることを検出できます。


奇数パリティビットはパリティビットを含めたビット列の中に1の数が奇数となるようにパリティ値をセットします。
今回は7ビットのデータ中に1が2つと偶数個なので、奇数個にするためにパリティビットは1となります。

途中でビット列の中の1文字が書き変わって0が1になった場合、奇数パリティにもかかわらず、1が偶数個存在するのでデータに誤りがあることを検出できます。


今話した方法は、データの誤り検出までで具体的にどのビット列が誤っているかまでは分かりません。

具体的にどのビット列に誤りがあるかを検出できる方法に水平垂直パリティチェックがあります。
ABCという文字列の例で考えていきましょう。
まずAの文字コードを縦に並べて一番下に偶数パリティを付与します。
同じようにBの文字コードを縦に並べて、一番下に偶数パリティを付与します。
Cも同様に行います。
このデータ単位に縦に付加するのを垂直パリティと言います。

今度は横に見ていきます。
101 は偶数なのでパリティは0
011 も偶数なのでパリティは0
同様に パリティを付与していきます。

この横のビット列に対して付加するのを水平パリティと言います。

例えば、Aのビット列の1つが書き変わってしまった場合 垂直、水平パリティ両方と一致しなくなるので、1ビットまで誤り検出と訂正をすることが可能になるのが水平垂直パリティチェックになります。

■電子透かし・コンテンツフィルタリング■

Webページに掲載された画像等のデータは簡単に複製ができるため、著作権が侵害される可能性があります。
このような権利侵害を防ぐ仕組みとして電子透かしがあります。
見た目は同じ画像ですが、透かし情報として著作者名、IDなどの情報を画像に埋め込むことが可能で、電子透かしに対応したアプリケーションを利用することで透かし情報を読み取ることができます。


誹謗中傷を含む情報や暴力など犯罪にかかわるWebページなど学校や会社のPCなどでは見せたくないページがあると思います。
情報を受信する際に、必要な情報だけを選別する仕組みをコンテンツフィルタリングといいます。

コンテンツフィルタリングにはいくつか種類がありますが、代表的なものにブラックリスト方式とホワイトリスト方式があります。
ブラックリスト方式は
不適切なサイトの一覧を作成し、そのリストのサイトを見せなくするものになります。
リストに無いものは見れるので、不適切なサイトが新たに発見されたらリストへの追加が必要になります。

ホワイトリストは、有益なサイトの一覧を作成し、そのリストに存在するサイトだけ閲覧可能とするものになります。
有益なサイトが別にある場合は、リストへの追加が必要になります。


情報セキュリティに関する技術の基礎を色々話してきました。
セキュリティ技術は日々進歩していますが、今回話した内容は基礎となるのでしっかり把握しておきましょう。
今日の情報セキュリティ技術の授業は以上になります。
最後までご視聴ありがとうございました。

【解説重要用語】

暗号化、復号、平文、デジタル署名(電子署名)、ハッシュ関数、ハッシュ値、公開鍵暗号方式、秘密鍵、公開鍵、認証局(CA)、シーザー暗号、HTTPS、Poodle、SSL、TLS、3Wayハンドシェイク、CSR、X.509、FIDO、VPN、IPSec、IPVPN、ブロックチェーン、分散型台帳、マイニング、パリティチェック、水平垂直パリティチェック、偶数パリティ、奇数パリティ、電子透かし、コンテンツフィルタリング、ブラックリスト方式、ホワイトリスト方式


★私の目標
「とある男が授業をしてみた」 の葉一さん
https://www.youtube.com/user/toaruotokohaichi
※Google社に招待頂いた、「YouTube教育クリエイターサミット2020」で
 葉一さんと文部科学省・Google役員の対談セッションに感銘を受けて、高校情報講座スタートしています。

【参考サイト・参考文献】
tkmium note(共通テスト対策・プログラミング・情報教育全般)
★情報関係基礎の過去問解説が充実しております!
https://tkmium.tech/

文部科学省 「情報Ⅰ」教員研修用教材
https://www.mext.go.jp/a_menu/shotou/zyouhou/detail/1416756.htm

詳細(情I703 高校情報I Python)|情報|高等学校 教科書・副教材|実教出版 (jikkyo.co.jp) 検定通過版
https://www.jikkyo.co.jp/book/detail/22023322

令和4年度新版教科書「情報Ⅰ」|高等学校 情報|日本文教出版 (nichibun-g.co.jp)検定通過版
https://www.nichibun-g.co.jp/textbooks/joho/2022_joho01_1/textbook/


その他、情報処理技術者試験(全レベル1~4)/IT企業15年勤務(システム技術部 部長)経験から培った知識を交えながら解説しています。

かわいいフリー素材集 いらすとや (irasutoya.com)
https://www.irasutoya.com/

 

【高校情報共通テスト対策/学習塾/個別指導】情報セキュリティ入門(ファイアウォール・マルウェア・認証認可など)【高校情報1授業・基本情報技術者】

2021-11-20 22:02:32 | 日記

情報セキュリティ入門(ファイアウォール・マルウェア・認証認可など)【高校情報1授業・基本情報技術者・ITパスポート・共通テスト】

 

 

高校情報1 教科書・参考書・問題集・プログラミング・共通テスト

高等学校 情報Ⅰ(情報1)の動画教科書・参考書・問題集です。授業・プログラミング対策/定期試験対策に利用可能!大学入学共通テスト「情報1」対...

 

 

【資料ダウンロード】

PDFの他、パワーポイント、学習指導案 等の原本も無料提供しています。

情報教育の底上げが目的なので、資料を修正して、学校・塾(営利目的含む)の授業等で利用して頂いて問題ありません。私への連絡不要ですが、利用する際には、YouTubeチャンネル・情報Ⅰ動画教科書・IT用語動画辞典を紹介してもらえると嬉しいです。

■PowerPoint・問題集
https://toppakou.com/info1/download/23_個人による安全対策/23_個人による安全対策.pptx

■簡易学習指導案
https://toppakou.com/info1/download/23_個人による安全対策/【学習指導案】23_個人による安全対策.docx

 


【文字おこし】

今回は、情報セキュリティとは何か、マルウェア対策、認証認可、ファイアウォールについて説明していきます。
一部は以前の単元と重複するものもありますが、復習を兼ねて勉強していきましょう。

===================
★情報セキュリティ
情報セキュリティは、例えば 人のパソコンやスマートフォンの情報を盗み見たり、、データを書き換えたり破壊したりする不正行為や不慮の事故に対して、個人的、組織的、技術的双方から安全対策を講じることになります。

専門的な言い方では、情報のCIAを維持すること になります。
CはConfidentialityの略で、機密性。
IはIntegrityの略で、完全性
AはAvailabilityの略で可用性
これらを纏めて情報セキュリティの3要素と言います。

それぞれの項目の内容を具体例を説明していきます。

まず、機密性は、許可されている人、モノだけが使用できることになります。
たとえば、IDとパスワードが知っている人だけが利用できる Webページなどがありますよね。
現実社会で例えると、人気アイドルグループのコンサートを見るためには、入場チケットが必要ですよね。
最近は、IDやパスワードが流出して、機密情報を盗まれたりする事件、つまり機密性が脅かされる事件が多発しています。

次に、完全性は、内容が正しい状態が維持されていることになります。
たとえば、A君からBさんにメールを送った場合、途中で書き換えられたら大変ですよね。
この情報が書き換えられる行為のことを、改ざんと言います。
つまり、完全性は情報が改ざんされないようにすることになります。

最後に、可用性は、使いたいときにいつでも使えるようにする ことになります。

たとえば、テレビで紹介された企業のホームページにアクセスが集中して、内容がみれなかったりすることがあると思います。これは、可用性が失われていることになります。
大量にアクセスが来ても使えること、通信経路の機器が故障しても迂回路を使って通信できるようにすることが可用性を担保することになります。

情報漏洩などのセキュリティ事故が起こってから慌てて対応するのではなく、機密情報を扱うものは常にこのCIAを意識しなければいけません。
このような、情報の機密性や完全性、可用性を維持していくために規定する組織の方針や行動指針をまとめたものを情報セキュリティポリシーと言います。

最近は、情報漏洩という言葉がニュースをにぎわせています。
つぎは、どのような方法で情報が漏洩するのかについて説明していきます。

情報漏洩は、企業など限られた組織や個人だけに公開が許可されている情報が、何らかの理由で外部に流出してしまうことになります。
漏洩経路は様々ありますが、コンピュータウィルスに感染して情報漏洩する場合も多いです。

===
今、ウイルスと言って思い浮かぶのが新型コロナウィルスだとおもいます。
一般的な病気としてのウイルスの特徴は
ウイルスを吸い込むことで体内に入る

体内に入って増殖する

症状が出る
という段階が考えられます。
コンピュータウイルスも、病気のウイルスと同じような意味合いで、名付けられています。

経済産業省のコンピュータウイルスの対策基準では
次の機能を1つ以上有するものとしています。

自己伝染機能
 自らを複製して他のシステムに伝染する機能

潜伏機能
 発病まで ユーザーに察知させないように、特定の時刻や時間、処理回数になるまで症状を出さない機能。

発病機能
 プログラムやデータ等のファイル破壊を行ったり、利用者の意図しない動作をする機能


今説明した、コンピュータウイルスはマルウェアと呼ばれるものの一種になります。
マルウェアは悪意のあるソフトウェアの総称になります。

マルウェアの種類について説明していきます。

まずはワームです。ワームは虫という意味ですが、虫は1匹でも独立して生きていけますよね。ワームは、ウイルスのように他のプログラムに寄生せずに自立して存在してネットワークを経由して自身を複製しながら自己拡散するマルウエアのことです。

次にトロイの木馬です。
ウイルスやワームは増殖しますが、トロイの木馬は増殖しないマルウェアです。
利用者からは、便利な普通のツールソフトの様に見えますが、実際には裏では攻撃活動を行うものがあり、感染に気付かずに被害が長引く可能性があります。

このトロイの木馬の一種に、バックドアがあります。
 直訳すると裏口の意味で侵入したシステム内のコンピュータと攻撃者が通信を行う為のマルウェアになります。このバックドアを利用して、外部から攻撃の指示を行ったり、機密情報を送信したりします。

このバックドアを利用して、攻撃者から指令を受けて、さらに他のコンピュータやネットワークに対して攻撃することが特徴のマルウェアを、ボットと言います。

感染したコンピュータを含むシステムの情報を盗むことを目的としたマルウェアをスパイウェアといいます。

このスパイウェアの一種で、キーボードの操作履歴を記録して打ち込んだID,パスワードなどの機密情報入手するマルウエアがあります。これをキーロガーと言います。
ディスプレイに映っている情報丸ごとスクリーンショットを取得して情報を窃取するマルウエアをスクリーンロガーと言います。

====

最近は、ランサムウェアと呼ばれるマルウェアによる被害が多くなってきています。
ファイルを暗号化して読めない状態にしてしまい、復号してほしければお金つまり身代金を要求するマルウェアになります。

マルウェアはコンピュータのセキュリティ的な弱点を狙ってくることが多いです。
このような、コンピュータのOSやソフトウェアにおいて、プログラムの不具合や設計上のミスが原因となって発生した情報セキュリティ上の欠陥のことを脆弱性と言います。
他の用語でセキュリティホールと言われることもあります。

情報が漏洩しても、暗号化していれば盗まれても解読できないから大丈夫と思われるかもしれません。
ただ、暗号化技術の発展とともに、いたちごっこのように解読技術も発展しています。
実際数年前まで安全と言われてた暗号化技術が今は見破られる可能性があるといわれているものがあります。
このように、技術の発展と共に、暗号アルゴリズムの安全性のレベルが相対的に低下した状況を危殆化といいます。


マルウエアの分類について話していきます。
先ほどコンピュータウイルスについて話しましたが、
狭義の意味でコンピュータウイルスとされています。

トロイの木馬、ワーム、狭義の意味でのコンピュータウイルスのことを「広義のコンピュータウイルス」といいます。

==
マルウェアの他にも情報が盗まれる経路は沢山あります。

まずは、フイッシングです。
フィッシングは、正規のメールやWebページを装って、ユーザーID、パスワード、クレジットカード情報等を入力させて、それらを盗み取って悪用する詐欺のことになります。

これは、実際私に届いたフィッシングメールです。
見た目はアマゾンの様に見えます。差出人はアマゾンと書かれていますが、この部分はだれでも偽装することができます。

そして、このURLをクリックするとAmazonそっくりなページに飛んで
ID、パスワード、クレジット情報等を入力を促されます。入力すると本人になりすまして物が買われたり、クレジットカードが不正利用される可能性があります。

URLのこの部分は偽装することは難しいので、クリックする前に本物のAmazon.co.jpのURLと一致するかを確認することで被害を防げる可能性があります。

他には、ソーシャルエンジニアリングという人間心理に付け込む手法があります。
パスワードを知っている人を信用させて、パスワードを聞き出したり、盗み見たりする手法で、日常生活の中から人為的に機密情報を入手して、コンピュータを不正利用する手法になります。

聞き出すだけではなくて、ゴミ箱に機密情報が捨てられていた場合、それを盗むスキャベンジングという手法もあります。
紙媒体の機密情報はシュレッダーにかけて破棄するようにしましょう。
シュレッダーは量が多くなると手間ですが、企業によっては、セキュリティボックスと言って一度中にいれたら取り出し不可能なボックスに入れて、専門の破棄業者に依頼することも多いです。

他にはコンピュータの誤操作、メールの誤送信など人為的な過失によって情報漏洩は起こります。これをヒューマンエラーと言います。
技術的な対策はもちろんですが、人為的なミスを防ぐための教育も行うことが大切になります。

★マルウェアの対策
このマルウェアの感染を防ぐ対策をいくつか紹介します。

・ウイルス対策ソフトウェアを利用し、ウイルス定義ファイルを常に最新にしておく
・サポートが切れたOSやアプリケーションは利用しない
・外部のメディアを接続する場合は、ファイルを開く前にウイルススキャンをすること
・開発元が明らかでないアプリはダウンロードしないこと
・ランサムウェア等の感染対策として、ファイルはバックアップしておくこと

もし感染した場合は
感染したコンピュータをネットワークから切り離すこと
ネットワーク・セキュリティ管理者の指示に従い対応すること などがあげられます。

また、無線LANは盗聴のリスクが高いです。
盗聴されてもその内容が解読できないように、現在は安全とされているWPA2、WPA3の規格を利用することがあげられます。

===============
★認証認可
次に認証と認可について説明していきます。
コンピュータを利用するためには、その権利を有していなければいけません。
この権利をアカウントと言います。


まず、「認証」と聞いて、IDとパスワードを入れてログインすることを思い浮かべる方が多いと思います。
認証とは、人に限らず、対象の正しさを証明や確認する行為のことです。
ここでいう対象とは、人だったり、サーバーだったり、クライアントパソコンだったり様々です。

そして対象を特定する方法として、大きく3種類があります。
知識情報
生体情報
所持情報 です。

それぞれについて説明ししていきます。

まず、知識認証は、その情報を知っていればログインできる認証になります。
代表的な例としてIDとパスワードを知っていればログインできるサイトが多いですが、このIDとパスワードの認証も知識認証の代表例になります。

次に生体認証です。
生体認証という言葉は有名ですが、身体的特徴や行動的特徴(癖)の情報を用いて行う認証のことになります。
身体的特徴の具体的な例としては、指紋や顔、DNA、目の網膜、虹彩、音声などがあります。最近は体臭の科学的な成分構成をもとに行う認証も研究されているようです。
行動の特徴についての具体的な例としては、筆跡、まばたき、歩行などがあります。

次に所持認証です。
本人しか持っていない物で認証するというものです。
最近はスマートフォンの普及率が上がったことにより、とあるサイトにログインする場合は、スマートフォンのショートメッセージサービスであるSMSに認証コードを送って、その認証コードを入れさせるというパターンが増えています。
このコードは1回しか使えない、使い捨てパスワードの役割をします。この1回限りのパスワードのことをワンタイムパスワードどいいます。

現実の世界では、家に入るためには鍵が必要ですよね。
逆に言えば、鍵を無くしたら本人でも家に入れなくなるし、盗難の場合は第三者が家に入れてしまうリスクもあります。

最近問題になっているのが、知識認証で用いられるパスワードの使いまわしです。
とあるサイトAのIDとパスワードを他のサービスでも使いまわしている方は実際のところ多いと思います。
仮にサイトAのIDとパスワードが漏洩した場合、攻撃者はいろんなサイトでその組み合わせを試して不正アクセスに成功するパターンも増えてきています。

その対策として、2要素認証というものがあります。
先ほど説明した知識、生体、所持の2つの要素を組み合わせる認証になります。
例えば、まず知識認証のIDとパスワードを入力した後、所持認証としてスマートフォンに認証コードを送ってその認証が通ったら初めてログインできるというものです。

2要素認証は同じ要素内では2要素となりません。
例えば指紋と虹彩2つの認証でも、同じ生体認証の範囲なので2要素にはなりません。

ただ、似た言葉で、二段階認証というものがあります。
これは、二つの段階を経て認証を行うことで、これはID、パスワードによる認証と誕生日など同じ要素内でも使われる認証になります。

また、要素を2つ以上組み合わせる認証を多要素認証といいます。
2つ以上なので、2要素認証は多要素認証の一部となります。


パスワードを決めるときには、他人が推測できないような複雑で自分だけが覚えやすいパスワードを設定する必要があります。

・異なる文字種の組み合わせにすること
・電話番号、生年月日、ユーザIDと同一なものは避けること
・初期のパスワードはすぐに変更すること
・パスワードはサイトごとに違うものにすること
・手帳や付箋などに書いておかないこと

とは、いいつつも、
最近は、色んなWebサービスがあふれているから、パスワードを一人で数十管理して忘れてしまう方も多いと思います。


ある意味パスワード地獄ですね。
そんなパスワード地獄の救世主がFIDOという技術です。
FIDOは簡単に言えば、生体認証等を使ってパスワードレスでサービスにログインできる仕組みで最近はそれに対応したスマートフォン端末等も増えてきています。

FIDOの具体的なフローについては、次回の単元で公開鍵暗号方式と電子署名について説明するのでその時に改めて説明します。

もう一つ覚えておいてほしい用語にシングルサインオン 略してSSOがあります。
これは、一度のユーザ認証処理によって独立した複数のサービスが利用可能になるものです。
例えばサービスAの認証が通った場合は、サービスBやCについてユーザは再度認証する必要がなく他サイトのサービスを利用できます。


ユーザーのアカウント情報を格納するサーバーを認証サーバと言います。

Webサービスの認証フローの代表例としては認証サーバーとしてデータベースサーバを使うことが多いです。
ユーザーはブラウザ経由でWebサーバにアクセスして、Webサーバ自体はユーザ情報は保持しておらず、認証サーバであるデータベースサーバにIDとパスワードの情報を問い合わせ認証処理を行います。


無線LANの場合はIEEE802.1Xという認証規格があります。

クライアントパソコンやスマートフォンは無線LANアクセスポイントに接続する時に認証情報を交換します。この時の認証情報を交換するプロトコルをEAPといいます。
そしてアクセスポイントは認証サーバのRADIUSサーバとの間で認証情報を交換します。
この時の認証情報を交換するプロトコルをRADIUSといいます。

今は、サービスを利用する側の認証について説明しましたが、サービスを提供する側の認証もあります。

以前の動画で詳しく説明していますが、HTTPS通信でサーバ認証を行います。

HTTPSではサーバは通信の際に、第三者機関が発行したサーバ証明書をクライアントに渡し、クライアント側はそのサーバ証明書が本当に信用できるかを検証しています。
ブラウザから警告が無ければ、そのサーバの認証が通ったということになります。

認証について説明しましたが、混同しやすい用語に認可があります。

認証は、対象の正しさを証明や確認する行為のことでしたが、認可は何かしらの権限や権利を与えることになります。

例えば、ATMの例で考えていきましょう。
まず、キャッシュカードと暗証番号で本人確認つまり認証が行われます。
ただ、一日の利用限度額は人によって異なりますよね。いくらまで下せるかの権限を与えることが認可になります。

同じWebサービスでも人によって、使えるサービスが違いますよね

認証と認可の違いについて押さえておきましょう。

★ファイアウォール
地面が燃えていますが、レンガが防火壁の役割を果たして。中に住んでいる人は火が入らないので、中の人は問題なく暮らせています。
コンピュータの世界でも、この防火壁の意味で、ファイアウォールという仕組みがあります。

ファイアウォールは、インターネット等の外部のネットワークからの不正なアクセスから守るシステムのことです。
つまり門番的な役割を果たします。
ファイアウォールは主に内部ネットワークと外部ネットワークの分岐点に設置されます。
以前の動画でルータはネットワークを分割するものと説明しましたが、ルータにファイアウォール機能が内蔵されていることも多いです。

ファイアウォールには、いくつか種類がありますが、
代表的な、パケットフィルタリング型とアプリケーションゲートウェイ型について説明します。

まずは、パケットフィルタリング型ファイアウォールについてです。

パケットとは、通信用に分割したデータのことです。大きなファイルのデータを送信際は、ネットワークの負荷を軽減するために、パケットと言われる単位でデータが分割されます。
それぞれ別の経路を通る場合もあります。
宛先に到着した時に、パケットを結合して、元通りの1つのデータにします。

宅急便の伝票を思い浮かべてみましょう。
送り元の住所と宛先住所そして、クール宅急便などの配送方法を記述しますよね。

宅急便の伝票と同じように、パケットのヘッダー情報には、相手の住所と自分の住所及び通信プロトコルが設定できます。
正確には送信先IPアドレス、送信先ポート番号、送信元IPアドレス、送信元ポート番号です。

パケットフィルタリング型ファイアウォールでは、そのパケットのヘッダ情報を確認して、パケットを通過させるか、破棄させるかを事前に決定できるという特徴があります。

ヘッダー情報の確認で処理が単純なので、処理が高速に行えるというメリットがあります。

フィルタリングルールについて詳しく説明していきます。


前提として、toppakou.comのネットワーク内にはルータの配下にFWを設置し、レイヤー2スイッチの配下にWebサーバ、メールサーバを設置したとします。

IPアドレス 123.123.123.123からのみHTTPSの接続を許可したいというパターンで考えていきます。

フィルタリングルールに送信元IPアドレス123.123.123.123を入れます。宛先のIPアドレスはWebサーバのIPアドレスになります。
送信元ポート番号は以前説明したように、ランダムの数値になることが多いので、特定の値を決められません。すべてを意味するanyと入れます。宛先ポート番号は、HTTPSのウェルノウンポートの443番とします。

一番最後の行に、当てはまらない場合の破棄のルールを定義します。
上記に当てはまらないという意味で、すべてをanyとして 動作に拒否を設定します。

これで、IPアドレス123.123.123.123からのHTTPSの通信のみ許可され、それ以外の通信はFWで拒否されます。

しかし、ここで問題点が出てきます。
WEBサーバが応答結果を返そうとしたら、宛先が123.123.123.123になりますがそれに当てはまるパターンが最後の行の破棄しかないので、返却データはFWで破棄されてしまいます。

FWのルールは入ってくる内向きとセットで外向きを定義しないといけません。
送信元IPだったのが宛先に変わるので逆に定義します。
送信元IPがWebサーバ、宛先が123.123.123.123 
送信元ポート番号が443番、宛先ボート番号がanyとなります。

返答パケットが存在する場合は、このように二つを1セットにして定義します。

Webサーバの場合は、送信元が不特定多数の場合がほとんどなので、
このように送信元IPもanyにすることが多いです。

以前、サブネットマスクやCIDR表記を説明しましたが、CIDR表記で許可するネットワーク範囲を指定することもできます。

このようにフィルタリングルールをあらかじめ固定的に設定する方法を、スタティックフィルタリング又は静的フィルタリングと言います。

ルールは番号順に評価されるので、当てはまるパターンがあった時点でそのルールが適用されます。

今は、INとOUTを2つ1セットで定義しましたが、大半は接続元の情報をひっくり返してOUT情報として定義することになると思います。これはネットワーク管理者には手間になり、定義を逆にする単純作業ですが間違ってしまう可能性もあります。

INの許可ルールに当てはまった時点で、その応答を許可するルールを通信の都度動的に追加してくれる方法があります。これをダイナミックフィルタ
と言います。

例えば、送信元IPとポート番号はanyでWebサーバでHTTPSの443番の許可ルールを設定しておきます。
そして送信元IPアドレス123.123.123.123 ポート番号50000 からHTTPSでアクセスがあったら、許可ルールと合致するので通信を通します。
この時に、返答時のルールである
送信元IPアドレス Webサーバ 宛先IPアドレス123.123.123.123 送信元ポート番号443番 宛先ポート番号50000のフィルタリングルールが自動で追加され、応答パケットが許可されます。

◆つぎにアプリケーションゲートウェイ型について説明していきます。
先ほどのパケットフィルタリング型はIPアドレスやポート番号のパケットのヘッダー情報のみで通過可否を判定しました。
しかし、送られてくるデータの中身までは確認できません。
アプリケーションゲートウェイ型はその、データの中身までフィルタリングすることが可能になります。

アプリケーションゲートウェイ型ファイアウォールは別名プロキシ型ファイアウォールと言います。

プロキシとは「代理」という意味で、プロキシサーバとも言います。
外部ネットワークとの通信は全てプロキシサーバを経由してデータの中身までチェックを行うことができます。パケットフィルタリング型に比べて強力に内部ネットワークを保護することができます。しかし、データの中身まで見る分、パケットフィルタリング型に比べて処理が遅くなってしまうというデメリットもあります。

ファイアウォール機能はWindowsのOSにも搭載されています。
同一ネットワーク内部からの不正アクセスや万が一外部ネットワークからの不正アクセスがFWを突破した場合の多重防御の役割も果たします。
ファイアウォールは決して万能ではなく、例えば、メール送信自体は正常なパケットですが、悪意の持ったユーザがウィルスを添付して送信するとファイアウォールをすり抜けて内部ネットワークのユーザのパソコンまで届く可能性があります。ファイアウォールのみでなく、ウイルス対策ソフトでの対策など他のセキュリティソフトとの併用が欠かせません。

 

【解説重要用語】
機密性、完全性、可用性、CIA、情報セキュリティの三要素、情報セキュリティポリシー、マルウェア、ワーム、トロイの木馬、ボット、スパイウェア、ランサムウェア、キーロガー、スクリーンロガー、脆弱性、危殆化、フイッシング、ソーシャルエンジニアリング、ヒューマンエラー、認証、認可、知識認証、所持認証、生体認証(バイオメトリクス認証)、ファイアウォール、パケットフィルタリング型ファイアウォール、アプリケーションゲートウェイ型ファイアウォール


★私の目標
「とある男が授業をしてみた」 の葉一さん
https://www.youtube.com/user/toaruotokohaichi
※Google社に招待頂いた、「YouTube教育クリエイターサミット2020」で
 葉一さんと文部科学省・Google役員の対談セッションに感銘を受けて、高校情報講座スタートしています。

【参考サイト・参考文献】
tkmium note(共通テスト対策・プログラミング・情報教育全般)
★情報関係基礎の過去問解説が充実しております!
https://tkmium.tech/

文部科学省 「情報Ⅰ」教員研修用教材
https://www.mext.go.jp/a_menu/shotou/zyouhou/detail/1416756.htm

詳細(情I703 高校情報I Python)|情報|高等学校 教科書・副教材|実教出版 (jikkyo.co.jp) 検定通過版
https://www.jikkyo.co.jp/book/detail/22023322

令和4年度新版教科書「情報Ⅰ」|高等学校 情報|日本文教出版 (nichibun-g.co.jp)検定通過版
https://www.nichibun-g.co.jp/textbooks/joho/2022_joho01_1/textbook/


その他、情報処理技術者試験(全レベル1~4)/IT企業15年勤務(システム技術部 部長)経験から培った知識を交えながら解説しています。

かわいいフリー素材集 いらすとや (irasutoya.com)
https://www.irasutoya.com/