小島教育研究所

教育関連ブログです。数学を筆頭に学問全般に渡る有用な情報を提供致します。
東海生、名高生、半高生に最も読まれています。

7月も残り1日。暑い日が続きます。

2022-07-30 | 日記
 皆さん、お元気ですか?

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

鹿児島 桜島 現在も噴火中 噴火警戒レベル5

2022-07-25 | 日記
NHKニュース防災で、噴火LIVE配信中!

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

女優 島田陽子さん亡くなる。享年69歳。大腸がん。

2022-07-25 | 日記
花の28組。
又一人、亡くなる。

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

データサイエンスとは何か? 『事例で学ぶ!あたらしいデータサイエンスの教科書』から

2022-07-25 | 情報教育


 様々な領域のデータを収集できるようになった今、データサイエンスに基づく意思決定や社会課題の解決に期待が寄せられています。その手法を学ぶにあたっては、そもそもデータサイエンスがどういうものなのかを知っておかなければなりません。横浜市立大学データサイエンス学部の初代学部長である岩崎学さんが解説する『事例で学ぶ!あたらしいデータサイエンスの教科書』(翔泳社)から、「第1章 データサイエンスとは」を抜粋して紹介します。
本記事は『事例で学ぶ!あたらしいデータサイエンスの教科書』の「第1章 データサイエンスとは」からの抜粋です。掲載にあたり、一部を編集しています。
 データサイエンスとは何でしょうか。

 その解答は十分に確立しているとはいえませんし、個人ごと組織ごとに違った答えを持っているかもしれません。しかし大まかには、

データサイエンス=(統計学+情報科学)×社会展開

といえるのではないでしょうか。データを扱う学問である統計学に加え、実際にデータを処理するための情報科学をその基盤とし、様々な社会課題の解決への展開につなげるのがその使命です。

 本書では、社会展開を念頭に置いた上で、主として統計学の視点からデータサイエンスについての様々な側面を取り上げて論じます。

 本章ではプロローグとして、これまでの統計的データ解析について概観したのち、それが現在のデータサイエンスではどのように変貌しつつあるかを見ていきます。

1.1 これまでの統計的データ解析の流れ
 まず、本節でこれまでのデータ解析の流れを確認し、それを元にして次の1.2で現在のデータサイエンスの特徴について論じます。

1.1.1 これまでのデータ解析の手順
 これまでのデータ解析の一連の手順を図1にまとめます。

図1 統計的データ解析の流れ
図1 統計的データ解析の流れ
 図1について、若干の説明を以下に加えます。

(1)研究目的の設定
 極めて当然ですが、まずは研究目的が明確に認識されている必要があります。単なる現状把握なのか、近未来の予測なのか、あるいは人為的な介入による変化をもたらすための方策を提供するのか。目的に応じてデータの取り方は変わってきますし、分析の方法論および結果の提示の仕方も影響を受けます。

(2)データ収集法の立案:実験、観察研究、調査
 研究目的が認識されたら、それを実現するためのデータ取得の計画を立てる必要があります。データの取得にはコストがかかりますから、研究目的を確実に実行できることを前提に、なるべく効率的なデータの取得法を工夫しなければなりません。

 統計学はこれまで、データ取得法の方法論を発展させてきました。研究目的が調査であれば「標本調査法」が、処置効果の立証などであれば「実験計画法」がデータ取得の方法論を与えてくれます。大学における統計学の授業では近年、これらの内容が講義されることが少なくなってきていますが、

"garbage in, garbage out"

の言葉があるように、データの質が悪ければ、よい分析結果は望むべくもありません。統計的データ解析で最も重要なものはデータを集める方法論であるとは、統計学の大御所のご託宣です。

(3)データの収集(モニタリング)
 よいデータを得ることがデータ分析のイロハのイですが、黙っていてはよいデータは得ることはできません。ここにある程度のコストをかけなくてはなりません。

 例えば新薬開発の臨床試験では、各製薬メーカーはモニターという職種の部隊を抱えていて、かなりの人数の人たちがよいデータを取るための業務に携わっています。これはどの分野でも同様で、よいデータを取るための方策なくして質のよいデータは決して得られないと知るべきです。

(4)データの電子化
 現在では、データ分析を紙と鉛筆および電卓で行う人はいません。データは必ずコンピュータに入力した上で分析にかける必要があります。

 しかし以前には、データは調査票やアンケート用紙などの紙媒体で提供されるのが一般的でしたので、それを電子化する必要がありました。現在ではほぼ死語となったキーパンチャーのようなデータ入力の専門家もいました。

 現在でもデータ入力は極めて重要な仕事で、その後の分析を見据えた上でのデータの準備が必要です。

(5)データのチェック(クリーニング)、マージ
 データは、多くの場合というよりほとんどすべての場合、そのままでは分析にかけることはできません。分析のための整形が必要ですし、データの欠損や異常値の存在など多くの問題を解決せねばなりません。また、分析が1つのデータセットのみで完結することは稀で、複数のデータセットの結合(マージ)が必要となります。その際には、データのマッチングを含めた地道な作業が必要となります。

 実際にデータ分析を行うとすぐにわかりますが、ここの部分でのエネルギーの消費はかなりの量に上ります。人によってはデータ分析の7~8割の労力がこの段階でかかるといわれることもありますが、これは決して誇張ではありません。

(6)データの集計とグラフ化(予備的検討):記述統計
 本格的な分析の前に、データの全体像を把握しておく必要があります。ここで有用な方法論が、いわゆる記述統計的手法です。データは多くの場合数字の羅列ですので、それを見やすくするためのデータの集計は欠かせません。また、データのグラフ表示による視覚化も重要な手立てです。この段階だけで、分析の目的が達成されることも多くあるでしょう。

(7)統計的推測ないしは予測:推測統計
 統計的な推定や検定などのいわゆる推測統計的手法は、データの素性を的確に捉え、近未来の予測や新しい知見を得るために必要となります。

 大学などにおける統計学の授業ではここの部分が主として講義されます。数学的な扱いが主となり、難解な数式展開などが含まれたりしますので、とっつきづらい面は否めませんが、統計手法の数理的な側面の理解はデータの分析によって妥当な結論を導くために必要不可欠です。

(8)分析結果のプレゼンテーション:文書化、口頭発表
 データを分析したらその結果を何らかの形で示さなくてはなりません。文書化および口頭での発表が必要となります。その際に重要なのは、分析結果を過不足なく客観的に伝える姿勢です。データの持つ情報を十分に捉えきれないのでは分析者として失格ですし、逆に結果をことさらに誇張するのも慎まなくてはなりません。データ分析の結果はその後にデータで証明されます。

 例えば新薬の開発で薬の効果をことさらに強調し過ぎても、その薬が実際に患者さんに投与されれば、その有効性はデータとして返ってきます。新商品に関するアンケート調査の結果を誇大に強調しても、実際にそれを販売すれば売上高がその成否を証明してくれます。

(9)意思決定(終了もしくは最初に戻る)
 データの分析結果は、それを得ることだけが目的であることはないでしょう。それに基づいた何らかの意思決定がなされなくてはなりません。もし意思決定に至らないのであれば、さらにデータを取り直すなどの算段が必要となり、このリストの最初に戻ります。

1.2 データサイエンスの特徴
 ここでは、統計的データ解析の流れがどのように変化してきているのか、あるいは変わってはいけないものは何であるのかを議論します。

1.2.1 統計的データ解析の現状と変化の方向
 1.1の統計的データ解析の流れは、いかにコンピュータが発達し人工知能(AI)がもてはやされようとも、また統計学がデータサイエンスに取って代わられようとしても陳腐化するものではなく、やはり押さえておかなければいけない真理を含んでいます。

 普遍的な価値を持つ原則を押さえることにより、そこからの乖離の程度を測りながら現代の複雑なデータの分析を行う必要があります。以下では、前節で提示した統計的データ解析の流れが現状どのように変化しつつあるかを見ていきます。

(1)研究目的
 世の中にはデータがあふれています。そのままにしておいたのでは宝の持ち腐れ、何とかしなければというのは誰もが思うことです。しかし、目的がなくては何のしようもありません。初めは目的が不明確であったとしても、最終的なゴールを早く見つけ出さなくてはなりません。

 特にデータの量が膨大になり、その質もまちまちである現在、データのハンドリングには思ったより長い時間がかかるようにもなっています。分析のツールやシステムを導入すればすべてが解決する、というのは全くの幻想です。目的があいまいなままいたずらに時間を浪費する愚を犯してはなりません。

(2)データ収集法の立案
 データは、それを集める時代から、集まっているあるいは集まってくる時代へと変わってきました。特に各種センサーの発達により日々刻々とデータが自動的に蓄積され、SNSのように我々一人ひとりがデータの入力源となって、せっせとデータを蓄積しつつあります。それに伴い昨今、データを集める方法論がおろそかになっているという危惧があります。どのようなデータ収集法が理想であるのかの知識を持った上で、現在あるデータがいかにして取られたのか、それは理想的な収集法に比べどこに不備があるのかを認識することが重要です。

(3)データの収集
 データが自動的に集まってくる昨今ですが、どのようにして収集がなされているのかのモニタリングはやはり重要です。データの背景に関する知識は、適切なデータの分析法の選択と実行のために必要不可欠です。

(4)データの電子化
 数値に限らず、昨今ではテキスト、画像、音声そして動画などが電子化され、電子データとして入手が可能になっています。コンピュータの記憶媒体の大容量化と通信速度の飛躍的向上がそれを後押ししています。以前の、データが紙で提供されていた時代とは様変わりしました。情報科学の技術革新の賜物といえるでしょう。

(5)データのチェック
 この段階は、現在でもやはり手間暇がかかります。人手で行うにはデータの量が膨大過ぎるからでしょう。ここをいかに自動化し人手を煩わさないようにできるかが、迅速なデータ分析のポイントです。異常値の検出やデータの欠損への対応などの自動化は、データの分析の一連の流れを加速させる上で極めて有効な手段となります。さらなる研究が待たれる分野です。

(6)データの集計とグラフ化
 この段階のテクノロジーの進展には目を見張るものがあります。超大量のデータの迅速な集計、美しい動画を交えた洗練されたデータの可視化などを実現化する様々なツールが提供されています。最近のデータは大量であるが故にその大まかな特徴を的確に捉える必要があり、そのためにはこの種の可視化ツールは大いに有用です。この段階で必要にして十分な情報が得られることも多いでしょう。また、その後の分析法の選択にも示唆を与えてくれます。

 しかし注意すべきは、きれいなグラフィックスが得られただけで満足してしまいかねないことです。だからどうした、結局どうなるの、といった疑問に的確に答えるためには、やはり「次の段階」が必要でしょう。

(7)統計的推測ないしは予測
 ビッグデータの扱いなどでは、推測統計の精細な議論は必要でないかもしれません。しかし推測統計の元となる、「現象をモデル化してデータの分布の関数形を定め、そこに含まれる未知パラメータをデータから推定した上でその推定値の精度の情報も提供する」という考え方や哲学は、やはり必要不可欠といわざるを得ません。

 しかし予測に関しては、深層学習(ディープラーニング)に代表される機械学習の諸手法が、これまでの古典的な統計学のいわば型にはまった統計手法の限界を超え、極めて柔軟なモデルに基づいた、精度のよい予測値を与えることができるようになりました。予測の方法は面目を一新したといっても過言ではありません。

 とはいえ、その予測方法は中身がブラックボックス化していて、なぜ予測が当たるのかについての知見をもたらしてくれない、という課題があります。単なる予測を超え、当該現象における因果関係の確立による人間の介入法にまで到達できるかがカギとなります。

(8)分析結果のプレゼンテーション
 プレゼンテーションツールも非常な進化を遂げつつあります。これまでの単なる数表やごく簡単なグラフだけでなく、目を見張るようなビジュアルによるダイナミックなプレゼンテーションが現実のものとなっています。しかしそれらに幻惑されてはならず、やはり中身が重要です。

 もちろん、中身の充実があった上での説得力のあるプレゼンテーションツールの適用は、望ましいものでしょう。

(9)意思決定
 データ分析の結果は、意思決定の役に立たなければ何の意味もありません。そのことを肝に銘じて新時代のデータ解析を行う必要があります。


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

これからもまだ増える?国公立大学の文理融合系学部

2022-07-25 | 高等教育機関


これからもまだ増える?国公立大学の文理融合系学部

デジタル人材データサイエンス文理融合
近年、国立大学に新設される学部で文理融合を標榜する学部が増えています。2023年度も金沢大学(融合学域スマート創生科学類)、静岡大学(グローバル共創科学部)などの新設が予定されています。これらに加えて、一橋大学(ソーシャル・データサイエンス学部)も文理融合と言って良いでしょう。ところで、今年の6月から中央教育審議会の大学分科会に新しい部会(大学振興部会)が加わりましたが、そこでの論点は文理横断・文理融合教育です。今や国家政策となりつつある文理融合系学部です。


大学振興部会の第1回の議題は文理横断・文理融合教育
 文部科学省の教育政策を審議する中央教育審議会には、いくつかの分科会が設けられています。その中で主に大学など高等教育政策は、大学分科会が担っています。その大学分科会のもとには様々な部会やワーキンググループが設けられていますが、今年の6月から新たに大学振興部会が加わりました。

 大学振興という部会の名称からは、私学助成や地方創成、国立大学法人の運営費交付金などを扱うかのような印象を受けますが、6月17日に行われた第1回の議題は、文理横断・文理融合教育です。部会の検討事項を見ると、文理横断・文理融合教育のほか、ダブルメジャー等による学修の幅を広げる教育の推進、初中等教育における学びの変化や文理分断の改善に対応した大学の在り方など、小中学校・高校での教育に関わることも含まれています。

 このほか、学習者本位の教育の実現、卒業生の資質・能力を保証する出口の質保証、大学の強みと特色を生かした連携・統合・再編、高等教育の規模の在り方なども検討事項としてあげられています。そのため、今後は学習者本位の教育(教学マネジメント、質保証など)、大学連携なども議論されると見られますが、今のところは文理横断・融合の促進が話し合われているようです。

・大学振興部会HP
https://www.mext.go.jp/b_menu/shingi/chukyo/chukyo4/051/index.html

文理融合=文系学生に数学を学ばせること?
 部会の資料では、文理横断・融合について、いくつかの論点が示されています。「なぜ文理横断・文理融合教育等を推進する必要があるのか」、「我が国の大学において、文理横断・文理融合教育等が十分に進捗、発展しているとは言えない状況であるとすれば、その背景、要因は何か」、「文理横断・文理融合教育等を行う大学・学部等を積極的に評価、支援していくために、どのような取り組みが考えられるか」などが主な論点ですが、次のように高大接続に関わる論点も示されています。

 「文理分断からの脱却、文理横断・文理融合教育等の推進の観点から、初中等教育と高等教育との接続について、どのような取り組みが求められるか」として、入試科目の見直しや入学者選抜の工夫・改善についても言及されています。ただ、文理横断・融合と言っても、資料を見ている限りでは、理系学生の人社系の学びを充実させるというよりは、文系学生にもっと数学を学ばせたいように見えます。このあたりはデジタル人材の育成という目標が背景にあるのでしょう。

 そのため、現実的には難しいと思いますが、いずれはいわゆる私大文系入試(英国地公)を規制して、数学を課すことを標準化したいのだろうと推測できます。

 こうした文系・理系の話になると、ほぼ必ず高校における文理分けが議論の対象となります。そこでは、高校での文理分けを廃止した方が良いという意見に加えて、文理分けを行っていない高校の事例が紹介されることがあります。

 確かに文理分けを行っていない高校は稀にありますが、ただ、授業科目の選択は行われています。クラスを文理に分けてなくても、生徒がそれぞれ授業科目を選択することで実質的に文理に分かれます。そのため、結局は文理分けをしているのと変わらないのですが、なぜか文理分けに反対の立場の方には評判が良いようです。

 ところで、文理融合人材とは言うものの、実際のところは数学がそこそこできる文系生か人社系の科目が少し得意な理系生のことを指していると言えます。本当に希ですが、どの科目も高いレベルで万遍なくできて、興味関心も広いことで文理選択に悩む生徒に出会うことがあります。

 恐らくそういう人材が本当の文理融合人材なのでしょうが、本当に希ですし、誰かに育成されてそうなった訳ではなく、もともとできる生徒だったと記憶しています。


データサイエンス系学部の志望者の大半は理系生
 河合塾の大学入試情報サイトKei-Netでは、2023年度に新増設予定の学部学科が紹介されています。文理融合系の学部は、金沢大学(融合学域スマート創生科学類)、静岡大学(グローバル共創科学部)、一橋大学(ソーシャル・データサイエンス学部)、名古屋市立大学(データサイエンス学部)などが新設予定です。

 データサイエンス系学部の日本初は2017年の滋賀大学データサイエンス学部ですが、私立大学を含めると設置学部はかなり増えてきました。2023年度でも私立大学で多くのデータサイエンス系学部学科が設置される予定です。

 一般的にデータサイエンス系の学部学科は文理融合系として扱われています。ただ、志望者の大半、特に国公立大学の場合は7~8割が理系の生徒です。文系科目で受験できる入試方式が用意されていたとしても、大学入学後は必ず数学が必要となることを受験生は知っています。それぐらい文系の生徒にとって数学のハードルは高いのだと言うことです。

 このデータサイエンス系学部を含む、主な国公立大学の文理融合系学部を<表>にまとめました。ここには、京都大学(総合人間学部)などのように入試で文系型科目・理系型科目の両方式を実施している学部も含めています。



 また、横浜国立大学(都市科学部)のように建築学科、環境リスク共生学科など複数の学科のうちの1学科が文理融合系学科のケースも学部として文理融合系として含めました。

 ところで、各受験情報サイトでの入試結果集計では、文理融合系という学部系統分類がないため、学部系統としての受験生の人気(志願者数、倍率など)を図る指標による集計がありません。

 2022年度入試では、徳島大学や愛媛大学で前年の2倍以上の志願者数を集めた募集区分もありますが、筆者が大まかに計算したところでは、表中の大学・学部の2022年度入試の志願者数は全体でやや減少、倍率も平均で3倍には届かないため、分野として人気があるとは言えないのですが、前述のように政策としてのバックアップもありそうですので、今後も増えていくことは確実だと言えるでしょう。

・河合塾の大学入試情報サイト「2023年度 新設大学・増設学部・学科一覧」
https://www.keinet.ne.jp/exam/future/


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

新型コロナウィルス第7波突入。

2022-07-19 | 武漢発パンデミックからの脱却
新規陽性者10万人超が3日連続!

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

もうすぐ夏休み。

2022-07-16 | 日記
1学期も間もなく終わり。
終業式。
夏休みだ!
思いっきり、勉強するぞ!?

皆さん、コロナに負けずに。
2学期を迎えよう。

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

安倍元総理の死を悼む

2022-07-09 | 日記
凶弾に倒れた安倍元総理。
日本の国民ばかりでなく、世界各国の人々がその死を悼んでいます。

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする