US6816848
Generally, the cluster analysis is performed based on input parameters from the user.
【0050】一般に、クラスタ分析はユーザからの入力パラメータに基づいて実行される。
In the preferred embodiment, the user may specify a database 116, a table within the database 116, and a list of attributes from the table that will be analyzed for clusters.
好適実施例において、ユーザはデータベース116、該データベース116内のテーブル、並びに、クラスタ用に分析されることになる該テーブルからの属性から成るリストを特定し得る。
The user also may identify a type of cluster analysis (e.g., K-Means or Gaussian Mixture),
またユーザはクラスタ分析のタイプ(例えば、K-means或はガウス混合)、
the number of clusters to be searched for within the data, a threshold difference in a Log Likelihood value below which the EM iterations will stop, and a maximum number of iterations independent of the change in the Log Likelihood value.
そのデータ内で調査されるべきクラスタの数、EM反復が下回って停止することになるログ尤度値における閾値差、並びに、ログ尤度値における変化と独立した反復の最大数を識別し得る。
In this embodiment, the Log Likelihood defines the likelihood that a given clustering model could have generated the dataset, i.e., it describes the adequacy of a clustering model fit under the assumptions of a given probabilistic model.
この実施例において、ログ尤度は所与のクラスタリング・モデルがデータ・セットを生成する尤度、即ち、所与の確率論的なモデルの仮定の下に適合するクラスタリング・モデルの妥当性を記述する尤度を規定する。
The output comprises a table of values of cluster means, variances and prior probabilities (i.e., the relative number of rows assigned to clusters). A measure of success of cluster identification is provided as the average of all within-cluster variances and a Log Likelihood sum on row-cluster probabilities.
【0051】出力はクラスタ平均の値、分散、並びに、先行可能性(即ち、クラスタに割り当てられた行の相対数)から成るテーブルを含む。クラスタ識別の成功の測定は、クラスタ内分散の全てと行クラスタ確率上のログ尤度合算との平均として提供される。
After the user has chosen the number of clusters desired (N), an initialization step randomly associates each row of the table to one of N clusters. This may be accomplished using a sampling function, a (non-random) row modulus function, or some other similar function.
【0052】ユーザが所望されたクラスタ数(N)を選択した後、初期化ステップがテーブルの各行を無作為にN個のクラスタの内の1つと関連させる。これはサンプリング機能、(非無作為)行モジュラス機能、或は、何等かの他の同様機能を用いて達成され得る。
WO2009120909
[00276] Identification of the dynamics of the emergence of separate subpopulations within the tπal sample population can be performed with two complementary clusteπng statistics Cubic Clustering Criterion (CCC) and the Pseudo-F which help the end-user establish the number of clusters emerging within the geometry as demonstrated in Fig 21
試験サンプル母集団内の別個の部分母集団の出現の動態の識別は、2つの相補的クラスタ化統計(3次元クラスタ化基準(CCC)および擬似F値)によって行なうことが可能であって、エンドユーザが、図21に実証される幾何学形状内に現れるクラスタ数を確立する支援となる。
US9264442
To detect anomalous user activity, the system may also separately cluster users for each domain to associate single-domain cluster indices with each user, and then cluster the users according to the single-domain cluster indices.
ユーザの異常な行動を検知するために、このシステムでは、ドメインごとにユーザのクラスタリングを別々に行って、単一ドメインのクラスタ索引を各ユーザに関連付け、次いで、単一ドメインのクラスタ索引により、それらのユーザのクラスタリングを行うこともできる。
For example, the system may cluster users according to the average number of files accessed daily (or within any predetermined time period), and cluster users according to an average number of e-mails sent and received daily (or within any predetermined time period).
例えば、このシステムは、毎日(または、任意の所定の期間内に)アクセスするファイルの平均数に従って、ユーザのクラスタリングを行うことができ、かつ毎日(または、任意の所定の期間内に)やり取りするEメールの平均数に従って、ユーザのクラスタリングを行うことができる。
The system associates each user with a single-domain cluster number for the e-mail domain, and associates each user with a single-domain cluster number for the file domain.
このシステムでは、Eメールのドメインに関する単一ドメインのクラスタ数を各ユーザと関連付け、かつファイルのドメインに関する単一ドメインのクラスタ数を各ユーザと関連付ける。
The system then clusters the users according to the single-domain cluster numbers from the different domains, thereby generating a discrete distribution for each user.
次いで、このシステムは、異なるドメインからの単一ドメインのクラスタ数に従って、ユーザのクラスタリングを行い、それにより、ユーザごとの離散分布を生成する。
The system can then compare a user's distribution of single-domain clusters with others that have roles similar to the user to detect anomalies.
次いで、このシステムは、単一ドメインのクラスタのユーザ分布を、そのユーザと同様の職務を行う別のユーザと比較して、異常を検知することができる。
Furthermore, the system can compute an anomaly score for each user for each domain, and then compute an aggregate anomaly score by weighting the separate anomaly scores for the domains.
さらに、このシステムは、各ドメインに関するユーザごとに異常スコアを計算し、ドメインに関する別々の異常スコアに重みを付けることにより、異常スコアの総計を計算することができる。
In an implementation, the system may utilize a leave-1-out technique to identify anomalous user activity.
実装形態では、システムは、1つ抜き法を用いてユーザの異常な行動を特定することができる。
The system analyzes a specific user by fixing the domain values of all domains except for one.
システムは、1つ除いた全てのドメインのドメイン値を固定することにより、特定のユーザを分析する。
The basic principle is that normal individuals should be predictable. The system attempts to predict a cluster number of that domain. The system may identify the user activity as anomalous if the prediction is incorrect.
この基本的な原理は、通常の個々の要素は予測可能であるはずであるということである。システムは、そのドメインのクラスタの数の予測を試みる。予測が不正確な場合、システムは、ユーザの行動を異常と認識することができる。
For example, the system may set the domain values (e.g., cluster numbers) for a user such that logon=1, device=2, file=3, and e-mail=1. The system then attempts to predict a cluster number for the HTTP domain.
例えば、このシステムは、ログオン=1、装置=2、ファイル=3、およびEメール=1となるように、ユーザに関するドメイン値(例えば、クラスタ数)を設定することができる。次いで、システムは、HTTPドメインに関するクラスタ数の予測を試みる。
If the prediction is incorrect, the system may label the user activity as anomalous.
予測が不正確な場合、システムはユーザの行動を異常として表示することができる。
The system may compute anomaly scores for each domain and combine the anomaly scores by weighting the individual domains.
このシステムは、ドメインごとに異常スコアを計算し、個々のドメインに重みを付けることにより、異常スコアを組合せることができる。
The anomaly score for a domain d and user i is
ドメインdおよびユーザiに関する異常スコアは、
[mathematical formula]
【数15】

である。
where N is the total number of users and j is each user j from j=1 to N.
ここで、Nはユーザの総数であり、jはj=1~Nからの各ユーザjである
The system may adjust the prediction miss value m(d,i) for each domain d to reflect the weighted value of the domain.
このシステムは、ドメインdごとに予測外れ値m(d,i)を調整して、重みを付けた値をドメインに反映させることができる。
The system may then compute an aggregate anomaly score s(i) for user i as s(i)=Σd a (d, i).
次いで、このシステムは、ユーザiに関する異常スコアs(i)の総計を
【数16】

として計算することができる。
WO2016087589
Others have attempted to analyze expression heterogeneity using different clustering methods and alternative multiplexing schemes (Gerdes et al. 2013, Qian, et al. 2010).
他の研究者が、様々なクラスタ化(clustering)方法及び選択的多重化(multiplexing)方式を使用して、発現不均一性の分析を試みてきた(Gerdes et al.2013、Qian,et al.2010)。
The hierarchical clustering approach requires significant assumptions to be made.
階層型クラスタ化アプローチでは、有意な想定を立てる必要がある。
Knowing the distance between points that determines where to draw the boundary to form a new cluster is a key parameter for hierarchical clustering algorithms.
階層型クラスタ化アルゴリズムの場合、新規クラスタを形成するために境界線を引く位置を決定付ける点間の距離を知ることが、1つの主要なパラメータである。
Alternatively, some hierarchical algorithms (such as Ward's method (Ward 1963)) require entry of the number of clusters as a parameter.
あるいは、一部の階層型アルゴリズム(Ward方式(Ward 1963)など)ではクラスタ数をパラメータとして入力する必要がある。
However, cut-off thresholds (distance) and number of expected clusters are both parameters that are often unknown.
しかし、カットオフ閾値(距離)及び予想されるクラスタ数はいずれも、不詳であることが多いパラメータである。
Additionally, some algorithms enforce assumptions about even cluster size (e.g. k-means), distance between points that are members of different clusters (hierarchical clustering) or assumptions about the expected number of clusters to be found (hierarchical clustering, k-means).
加えて、一部のアルゴリズムでは均等なクラスタのサイズ(例えばk平均)、異なるクラスタの構成要素である点間の距離(階層型クラスタ化)に関する想定、又は見つかると予想されるクラスタ数(階層型クラスタ化、k平均)に関する想定を強制する。
Though widely used, hierarchical methods are better suited to variables measured on a discontinuous scale (e.g. +, ++, +++, ++++).
幅広く使用されているが、階層型方法は、非連続的尺度(例えば+、++、+++、++++)を基準に測定される変数により良く適する。
For this reason, hierarchical clustering algorithms are not ideal for the requirements of expression heterogeneity analysis.
こうした理由から、階層型クラスタ化アルゴリズムは、発現不均一性分析の要件に対して理想的ではない。
Alternative density-based tools such as FLOCK (Qian, et al. 2010) have limitations in that parameters for size of hyper-regions used to calculate density and density cut-off thresholds must be estimated and entered to the algorithm to enable cluster determination.
選択的な密度ベースのツール、例えばFLOCK(Qian,et al.2010)は、密度及び密度カットオフ閾値の計算に使用される過剰領域(hyper-region)のサイズを表すパラメータを推定し、これらをアルゴリズムに入力してクラスタ判定を可能にしなければならない、という制約がある。
WO2015002630
(assuming i= l , . . . ,N where N=number of claims and d=T , . . . ,D where D=number of clusters)
(i=1、…,N、ここで、N=クレーム数、およびd=1、…,D、ここでD=クラスタ数)。ここで、jは変数の数であり、