ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

正常と異常を分けるため、データをK-meansでクラスタリングすると、うまくいかないことがあるけど・・・

2018-06-26 14:05:31 | Weblog
・・・その理由の文章の出典、やっと見つけたので、メモ

【その理由】
幸福な家庭はどれも似たものだが、不幸な家庭はいずれもそれぞれに不幸なものである。

【出典】
アンナ・カレーニナ


そうだそうだ、そうだった(^^)v

ありがとう、

名言ナビ
https://meigennavi.net/word/031/031299.htm

ちなみに、解説すると。。
正常のデータは、似ているんだけど、
異常のデータはさまざま。なので、全く違う要因がいくつもあることがある。
ところが、k-meansの場合、いくつにわけるのを、あらかじめ入れてしまう。
2(正常と異常)にすると、異常はさまざまあるので、むしろ、正常値のほうが近くなって、うまく分離できない。
じゃあ、異常のグループは、いくつあるか・・というと、わからない

結果として、極端な異常値を中心として、正常値が2つにわかれてしまったりする・・・

【対策】

外れ値分析をする。
http://www.stat.go.jp/training/2kenkyu/pdf/ihou/67/wada1.pdf
https://support.minitab.com/ja-jp/minitab/18/help-and-how-to/statistics/basic-statistics/how-to/outlier-test/perform-the-analysis/select-the-analysis-options/
https://bellcurve.jp/statistics/blog/14290.html
http://univprof.com/archives/16-07-19-4830461.html

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする