John Sall explains why we need not be afraid of ghost data.
定量的および定性的データ。数値データと文字データ 式と非構造化テキストデータ これらはあなたが既に知っているかもしれないしそして対処方法を知っているかもしれないすべての種類のデータです。
しかし、あなたがまだ聞いたことがないかもしれないデータの別のカテゴリがあります: ゴーストデータ 。いいえ、それは私がハロウィーンのために作ったものではありません。
SASの共同創設者でエグゼクティブバイスプレジデントであるJohn Sallは、ゴーストデータについて考えてきました。これは実際には存在しないデータです。彼は、ゴーストデータを理解し評価するべきだと言っています。
SASのJMP部門の責任者として、彼は顧客と話し、ソフトウェアの開発を支援しています。彼はまた、データ、統計、技術についてよく読んで考えています。あなたは彼を読んだかもしれませんブログ記事約なぜ統計が不可欠なのかそしてデスクトップコンピュータが死んでいない理由 。彼はアメリカ統計学会とアメリカ科学振興協会のフェローです。 そして彼はの基調講演者ですディスカバリーサミット2017 inセントルイスここで彼はゴーストデータについて話します。 ゴーストデータについての私の質問に対する彼の答えを読んでください(1つのばかげた質問を含む)。
ゴーストデータについて教えてください。
ゴーストデータとは、そこには存在しないデータのことです。さまざまな種類があります。たとえば、仮想データがあります。それを見るまではありません。表面上は十分にリアルに見えますが、必要に応じて実現されるだけです。まばらなデータがあり、その欠如はゼロを意味します。希薄性は、数種類の分析において重要な計算上のイネーブラです。欠けているデータもあります。このデータには値を保持するためのスロットがありますが、その値は不明であるため、スロットは空です。別の種類のゴーストデータは、ふりデータであり、これは構成されているデータである。このようなデータは、「What if?」と答えるためにシミュレーションにとって重要です。より多くの種類のゴーストデータがありますが、これら4つはデータ分析にとって重要です。 JMP 。
私たちは幽霊データを怖がるべきですか?
ゴーストデータを怖がる必要はありません。そこにないのはデータだけです。実データと同じくらい自然です。私たちが持っているデータに感謝するように、私たちはそこにはないデータについての感謝も必要です。それをどのように処理するか、それを使ってモデル化する方法、そしてそれを機能させる方法を知る必要があります。ゴーストデータを適切に処理することは非常に重要です。
ゴーストデータを処理する1つの方法は何ですか?
欠けているデータを見てみましょう。以前は、分析変数の1つが欠けている行をスキップしていました。問題は、欠損値が完全にランダムではない場合、この方法では結果に偏りが生じることです。ここで、欠損値が予測的であると仮定して、欠損値をモデルに直接組み込みます。これは「情報不足」と呼ばれます。2008年の金融危機以前の住宅ローンデータは、情報不足の好例です。住宅ローンの債務不履行の確率をモデル化するとき、「収入」や「負債対収入の比率」などの変数に欠損値があるすべての行がドロップされていると、結果に偏りが生じます。多くの場合、融資申請者はこれらの値を入力すると融資の資格が得られないことを知っていたため、値を省略しました。サンプルデータを提供しているデータテーブルでは、債務対所得比率の欠落が住宅ローンのデフォルトの最も重要な予測因子です。
あなたがハロウィーンのゴーストデータとして行きたいと思えば、あなたのコスチュームはどのように見えるでしょうか?
インビジブルマン、あるいはインビジビリティのマントを使っているハリーポッター、またはそれのメタマテリアル版。