統計ソフトのオプションには欠損を含むデータのために、「リストごと削除」を指定する項目がある。相関を計算する場合などでは「ペアごとに削除」を指定することも出来る。1つでも欠損があるケースは信用できないというのであれば前者を採るのがよい。折角得られたデータだから有効に活用したいというのであれば後者を採るのがよい。データの価値をどのように観るかの違いである。
貴重なデータを更に有効に利用したいというのであれば、補完という方策もある。欠損部分を推定するために色々な方法があるが、何らかの意味で平均値を用いるのが一般的である。欠けているところを補っても新しい変動の添加を最小限に抑えるという意味で妥当な方略である。
欠損を生じたケースが帰属する集団が何であったか、どの集団での平均値を採るかを定めなければならない。欠損部分はわれわれの知りたい情報の伝達を妨害し、補完はその妨害を除去するが、なぜ補完が必要になったかという認識は欠かせない。最初の問題設定が間違えていたのかも知れない。測定の設計が適当でなかったのかも知れない。解析に用いるべきモデルが補完を必要としているのかも知れない。
ケースが帰属する集団が仮に2つだとすれば、多くの古典的な統計的手法は、その集団のサイズがほぼ等しいときに最も有効である。線形性と正規変動を仮定したモデルで考案された方法だからである。現実には一方の集団ばかりに欠損値があってバランスが崩れていれば、欠けた部分を補わねばならない。アンバランスの場合には、そのために修正した解析法を用いるという便法もあるが、データの表に直接手を加えなかったと言うだけのことである。
極端な場合として、全ての変量について欠損していたとみなし、全てに平均値を代入した架空のリストを作り上げてバランスをとることを想定すれば容易に理解できる。補完は解析法が要求する条件を満たすための便法である。作為のデータをそのように加えたからといって、必ずしも邪道だとか無意味だとかいうことにならない。
例えてみれば、24 f/sで撮影したアナログの動画データを補完し、倍速の デジタル・システムで 再生するようなものである。空白のフレームのために暗転が頻発しチカチカと見苦しくなる難を防ぎ、元来の速度で映像の動きを見ることができる。記録が古い方式によるものであることは分かりながら、その記録が保有している情報は有効に理解できる。
補完とはデータの部分的な修正であるが、どの範囲のデータで、どの部分を補完するか、その方法が活かされるかどうかが肝腎である。
貴重なデータを更に有効に利用したいというのであれば、補完という方策もある。欠損部分を推定するために色々な方法があるが、何らかの意味で平均値を用いるのが一般的である。欠けているところを補っても新しい変動の添加を最小限に抑えるという意味で妥当な方略である。
欠損を生じたケースが帰属する集団が何であったか、どの集団での平均値を採るかを定めなければならない。欠損部分はわれわれの知りたい情報の伝達を妨害し、補完はその妨害を除去するが、なぜ補完が必要になったかという認識は欠かせない。最初の問題設定が間違えていたのかも知れない。測定の設計が適当でなかったのかも知れない。解析に用いるべきモデルが補完を必要としているのかも知れない。
ケースが帰属する集団が仮に2つだとすれば、多くの古典的な統計的手法は、その集団のサイズがほぼ等しいときに最も有効である。線形性と正規変動を仮定したモデルで考案された方法だからである。現実には一方の集団ばかりに欠損値があってバランスが崩れていれば、欠けた部分を補わねばならない。アンバランスの場合には、そのために修正した解析法を用いるという便法もあるが、データの表に直接手を加えなかったと言うだけのことである。
極端な場合として、全ての変量について欠損していたとみなし、全てに平均値を代入した架空のリストを作り上げてバランスをとることを想定すれば容易に理解できる。補完は解析法が要求する条件を満たすための便法である。作為のデータをそのように加えたからといって、必ずしも邪道だとか無意味だとかいうことにならない。
例えてみれば、24 f/sで撮影したアナログの動画データを補完し、倍速の デジタル・システムで 再生するようなものである。空白のフレームのために暗転が頻発しチカチカと見苦しくなる難を防ぎ、元来の速度で映像の動きを見ることができる。記録が古い方式によるものであることは分かりながら、その記録が保有している情報は有効に理解できる。
補完とはデータの部分的な修正であるが、どの範囲のデータで、どの部分を補完するか、その方法が活かされるかどうかが肝腎である。