写真撮影日:2023/6/26~30 秋田県の清流を探して
写真上:「川原毛大湯滝(かわらげおおゆたき)」湯沢市にある野湯で、上流からの温泉と沢水が合流して夏季には「いい湯だな♪」になる。だけど強酸性(ph1.41)なのでお肌とご相談です。
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
さてさて続きです・・・。
AIモデルで誤差の少ない回答を得るためには「データの選択」および「パラメーターによる調整」が最も重要で、難しいことです。前々回⑤で「基本的な単層パーセプトロンでのパラメーターについて、絶対にさっさと書くつもり」と書いたのに、検索するほどにこちらもディープラーニングの深層に落ちる~! どうかプログラマーや専門家ではないことを御了解くださいませ。
たとえば「単層パーセプトロン」
※1:入力層:多数のデータ〇印が並び、次の中間層に向かう交差する印が
伸びる。矢印の交わるところが「ノード(結び目)」。
2:中間層(隠れ層):→が伸びた先に複合した大きな〇データ、
あるいは□で囲み「ブラックボックス」としている場合も。
3:出力層:再び〇印データが出てくるが数・矢印は減少する。
これにおいて入力データが10個だと、性別・年代別・カテゴリー別…などといった「データの重要度の数値がパラメーター(変数)」で、次の中間層の計算では「重みづけ」となります。この場合は原則パラメーターも10個で、出力の目的やモデル・アルゴリズムなどに応じて数値は変わります。
ところが先日来、生成AI含むネット検索の結果に「パラメーターとハイパーパラメーターの違いについて」などの語句が目立ってきました。説明では「ハイパーパラメーターはプログラマーが事前に設定する」、一方で「パラメーターはコンピューターが計算後に数値を設定する」とあります。想像ですが、1~2ヵ月前には見なかった語句が出てきたのは、新しい語句・概念が生まれたということかもしれません。
その英語・ハイパーの「スーパーより強い意味」「程度をはるかに超えた」という語感や意味からは、当初てっきり大量データを識別するコンピューターが行うもの、と感じました。だけど意に反して、ハイパーパラメーターこそ人間が行う作業ということで、つまりそれほど難しく、試行錯誤を繰り返しながら「精度の向上を追求する設計作業」なのだと想像しました。
この段階を「ハイパーパラメーターによるチューニング(調整・調律)」と呼び、パラメーターは単に数値だけではなく、ネット検索では「…代表的なものとして、エポック数、学習率、閾値、ミニパッチサイズ、層の数、1層あたりのニューロン数、などが挙げられる」とあります。つまり今や重要度の数値だけでなく、多くの要素をパラメーターが調整しているらしく、「パラメーター数1兆が目標」(ソフトバンク社長)という意味に納得です。
ところで、やや専門的な語句でネット検索中に、あるサイトで「ダークウェブにログインしてください」というポップが出てきました!
最近闇バイトや外国拠点の詐欺犯罪などで「ダークウェブ」が話題に上がることも多いです。説明では「ユーザーは匿名で自分情報を隠し、犯罪や非合法行為を行っているネット領域で、ログインには特別なブラウザーが必要」とのことですが、もしかしてID+パスワードでログイン可能なのでしょうか?「清く・正しく・△しく」のあいよっこは当然無視ですが、ネットでは相当身近な存在になっていることを実感しました。
そもそもインターネット自体、匿名性が高く、無責任な誹謗中傷がはびこり、偽情報・フェイク(なりすまし)情報も飛び交っています。インターネット起源はアメリカ軍部が戦略のために始めた、という事実をいつも忘れないようにしたいです。
次回は「データの種類と選択」「中間層で行っている計算」について。
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
写真:夏にはまだ遠いけど、入浴の人たちがいました。
写真:強酸性水でもいきいきとしている「チャツボミゴケ」
カワゲラやとびゲラなどの昆虫も住む
写真:「川原毛地獄」は青森県・恐れ山、富山県・立山と並ぶ日本三大霊地
水蒸気噴火で形成された火口からは盛んに噴気が出ている。灰白色は
溶結凝灰岩が桂化したものだけど、山・噴煙・雲の区別できますか?
写真上下:「ギンリョウソウ」ミステリアスで不思議な雰囲気。キノコなど
の菌類から栄養を取る寄生植物で、別名「ユウレイタケ」