gooブログはじめました!

写真付きで日記や趣味を書くならgooブログ

G検定

2024-11-14 06:32:44 | 日記

G検定を受けました。勤め先で必須?というかその理解をしてはどうだろうか?という投げかけからです。

実際、利用することは無い?のかも知れませんが、勉強にはなりました。ディープラーニングを理解しているようで理解していないのがよくわかって、現在の金額レベルでディープラーニングを利用するのはおこがましく。パソコンを変えかえたぐらいではまともなことができるのかも理解できました。エヌディビアがどうして持て囃されているの、電気量がとんでも必要なのかも理解できて知りたかったことが分かったこととしては面白いというか、現在も続きがやってみたいという感覚が続いている。SONYのディープラーニング動画を見つけて最後の試験前二週間は暇さえあれば見ていて、自分の知識がどれほど遅れているか思い知らされます。G検定の用語検索で見つけた動作ですが、ほぼ5年前の動画で答えに当たる部分は本当に解説して頂いて助かりました。用語と言えばジェミニで調べるのが最も効率よく理解できたことも事実で、ジェミニ片手に試験を受けた方がいいとも思えましたが、時間的に無理だと実感はしています。ディープラーニングがすべてのアプリで利用できる。という考え方には感じ入りました。DXが言われている世の中ですが、ディープラーニングをどのように現行のアプリで利用するか?という考え方の方が単純でいいと感じています。どこかが分かれば苦労しないと言われそうですが、これまでの認識よりも明確な答えを得たと思います。ただ、ディープラーニングを実装するには費用が、どう捻出すればいいのかが問題だと感じます。ところで試験は60%ほどは埋めることができたので、合格ラインの70%には届かないという結果かなとこれから覚悟を決める必要があると考えております


アジモフ先生

2024-11-04 07:20:45 | 日記

心理歴史学と言えば現在はかなり変わった印象を受けるようになっただろうか?それこそ学生時代後にアシモフ(本人は拘っていてアジモフが正しい発音と書いていたと思う)の新刊を待っていた身としてはSF一択だったのだが、現在の深層学習に続く統計的な手法を見ると現実的な?感じを滲ませている。この辺りは専門家に任せた方がまだ面白いような気もするが、最近のG検定準備でもそんな話の資料を見たので当時を懐かしく思い出して人類の流れを理論的に測るところに引かれ、そこからロボットがどのように関わって行くのかアジモフ博士のストーリーに捕まれた記憶が強い。

さて、ここでもう一つ人が人との関わりを無くしていったという流れがある。これはロボット工学の三原則ミステリーのイライジャ・ベイリだったかの話のなかで宇宙人(地球と対比しての位置づけとして表されていた)が他人との接触を無くていった結果の世界が広がっていた。そこにも謎があったのだが、現在それが倫理的な観点から現実味を帯びてきているとも感じている。そんな記事も読んだが、確かに恋愛のリスクはかなり面倒と思う。自分世代の不倫を一生懸命やっている人なんかでは理解が及ばないと思うが、確かに面倒と個人的に思ってしまう。

その理論から帝国の終末を予測して人類が少しでも退廃からの脱出を軽くするファンデーション。最近オーディブルに追加されて聞いたのが気持ちを新たにした遠因でもあるが、最近の情報インフラを考える上で手にするニュースがいつも心理歴史学を想起されるのも間違いない。『銀河帝国の興亡史』という題名に初めて触れたのが小学校だったと思う。生まれる前に書かれたSFである。それから続きがでたのが高校を卒業した後(調べた)数年でアジモフは鬼籍に入った。(驚いたことにファンデーションのコミックスが現在進行形で作成されている)古くからのSFファン(バローズとかでなく、アシモフ・クラーク・ハインラインが新刊を出していたのを経験したファン)には本当に面白い時代が来ていると感じているだろう。そう思うとこれからも少し努力をするべきと感じてしまう。最後はどうなるか、アジモフが言った「電源のスイッチを切るように」なるというのが正解で合って欲しいと思うことが多い


そろそろアウトプットを

2024-11-02 06:32:33 | 日記

G検定の勉強をしている。来週の土曜日が受験。さすがに焦る時なのだがどうもこうも動きが取れない。気持ちだけ焦っている。成果として学習サイトの多さを実感できた。日本という国もいろいろと用意していてWeb上で学習できるサイトがたくさんある。G検定だめでもこれらを続け行くのがいいのだろうなと感じている。データサイエンシストにはなれそうもないが、そんな人の手伝いぐらいできる立場でいたいと思う。基本、データを保存する情報インフラは少しはわかるので大規模なものの経験はないが、中小レベルならばなんとかなるなと思う。

https://developers.google.com/machine-learning?hl=ja Google の学習サイト、同時翻訳だから日本語がおかしい

https://lms.gacco.org/dashboard データサイエンスに関する講義が複数開講している

というメモ書き記述がやっとのところ


Azure PaaSを使う

2024-07-11 06:41:19 | 日記

Azure SQL と App Service の構成がなんとか理解した?

かなり困った感じがあったが、それでも何とか乗り越えて、Google検索でヒントを得ながらなんとかという形。今風ならば AIを利用してなんとか検索すれば、courcera AIに関する初級の講座を受けたがプロンプトが重要で生成AIの場合。記述方法の一定のフォームを理解すると早いらしく…繰り返し変更しながら当たるのが最もいいらしい。

因みに企業宿題のファスト作成で(バリューエンジニアリングのFAST)思わず利用してみたが、確かに回答はするがなかなか定義に向かわない。それでも何回か繰り返して定義らしいところまで近づいたが、明確な答えにはならなかった。バリューエンジニアリングの理解が難しいと感じた。でも自分の視点から離れた定義は面白いと考えたところ時間の効率化に繋がったかどうかは分からない

SQLは、既存のツールを利用する場合、コスト効率を考えると既存のツールだけでは無理な感じもあるし、Webは、同じように立ち上げるのだが立ち上げの中で同じプランを選択することで効率化が図れる。こればかり経験するしかないし、5年目のググった操作ログとは比較も無理なぐらいの変更がかかっていた。こればかりは継続して利用、もしくは操作を押えるしかないらしい。ここで一番問題となったのはネットワークだ。基礎をうろ覚え程度で対応しているが泥縄学習が極まれている。また、課題も残る。Webアプリのオンプレとの接続である。それと機になったのが文字コードに関する事。Windows 11を起動した時もそうだったが文字コードの差で問題がでることが工程ごとに発生している。ユニコードがオンプレでシフトJISコードなのはわかっているが、クラウドとのやり取りでそこが混乱、もしくはツールの仕様上問題が発生することがある。となると、そろそろパソコンのコードも統一されるべきだが、そこで混乱をどう押さえるのかも気になるところ


データ分析を載せる

2024-05-26 10:00:24 | 日記

ケーススタディ① 自転車シェアリングを迅速に成功するには?

ビジネスタスクステートメント

  • カジュアルライダーとサイクリストの差を整理する
  • カジュアルライダーが年間会員権を購入する理由を整備する
  • デジタルメディアがカジュアルライダーに与える影響を整理する

以上の内容から自転車を利用する人々が利用を拡大する理由やその要件を検討し整備する。自社のサービスにエンゲージメントする境界を整備し、その内容を利用する層に対して一番適したデジタルメディアを推測して、エンゲージメントする要件を伝える

  1. 移行する対象者を整備する
  2. 移行する理由を捉える
  3. 移行する閾値を整備する

※ デジタルメディアに関するデータは別途入手する必要がある

ビジネスタスク

  • データの入手:データ入手先整備とデータ価値特定
  • データの整備:データ内容確認とデータクリーニング内容想定
  • データの分析:利用内容とカテゴリ整備、仮説検討と実質比較
  • データの共有:仮説と実施の組織内共有と評価検討
  • 方向性の提案:提案内容の更改

主要な利害関係者

  1. 自転車購入者:シェアリングから脱却を視野に入れる
  2. 競合他社:公共施設などで自転車をレンタル提供する
  3. 歩行者:通行路、駐輪場での移動にまつわる利害
  4. 自動車利用者:道路に関わる影響に関わる利害

データの準備

Lyft Bikes and Scootersより入手。Google ドライブにてCSVファイルを保存する

データ項目

乗車ID ユニークなID

乗車可能タイプ 利用車種

開始時刻 利用開始日時

終了時刻 利用終了日時

開始駅名 利用開始駅名称

開始駅ID 利用開始駅ID

終了駅名 利用終了駅名称

終了駅ID 利用終了駅ID

開始緯度 利用開始緯度

開始経度 利用開始経度

終了緯度 利用終了緯度

終了経度 利用終了経度

メンバー_カジュアル メンバー種類

メンバー種別により、移動距離や移動ベクトルの特定、駅名からの基点規模などの推測も可能とかんがえられる。

データの確認

  1. カジュアルライダーとサイクリスト項目確認
    1. null データはなし
    2. データ比率は、7:3
  2. 終了駅名等のデータ
    1. データ無しが存在する
    2. 15%のデータが null 値になっている
    3. 終了位置の特定ができないために発生している
  3. 開始時間と終了時間
    1. 終了と開始が逆の場合が存在する
    2. 経過時間が無い場合が存在する
    3. 経過時間により異常データを排除する
  4. 開始緯度と終了緯度
    1. 利用の最初と最後なので移動した距離とは限らない
    2. 終日貸出して、同じ場所に返却することも考えられる
    3. この分に特化して分析は可能だが関連付けは難しい

プロセス

  1. 異常データ
    1. 開始時刻と終了時刻の差が0秒以内のデータは削除する
  2. 選択ツール(Excel)
    1. 現在利用できるレベルに近いため
    2. データ変換後、R studioの利用も考慮する
  3. データ変換
    1. 利用時間によるデータ
      1. 異常データは対象外とする
      2. 10分、60分、360分、720分、1日の単位で分類する
    2. 利用時間帯によるデータ
      1. 時間帯による対象者を分別する
      2. 午前、午後。早朝から10時、10時から14時、14時以降
    3. 移動距離によるデータ
      1. 異常データは対象外とする
      2. 開始緯度と終了緯度の差が0は、対象外とする
      3. 終了緯度がないものは対象外とする
      4. 0.001以下、0.02、0.03 ~ 0.1まで区切り分類する
    4. 移動距離なしのデータ
      1. 利用時間別に分類する
      2. 10分、60分、360分、720分、1日の単位で分類する

分析

  1. 仮説
    1. 利用時間による人数比率(短時間と長時間で会員数が多い)
    2. 時間帯による人数比率(会員外は、午前中が多く。14時以降は少ない)
  2. 分析結果
    1. 短時間3時間以内に集中していた
      1. 長時間の利用が少ない
      2. カジュアルの場合、時刻見積が甘いのか1時間以上の利用が多い
    2. 午前中が少ない
      1. 午前中が少ない
      2. 14時以降の利用者が多い
  3. 検討
    1. 午後からの利用者に対して会員登録活動を行う
    2. 時間帯から成果物を終日中に届ける想定が考えられる
    3. 目的が同じで利用場所も似通っていると考えられる
    4. 日常の利用を考えて利用促進を考える