キャンセル
次の結果を表示 
表示  限定  | 次の代わりに検索 
もしかして: 
The Discovery Summit 2025 Call for Content is open! Submit an abstract today to present at our premier analytics conference.
言語を選択 翻訳バーを非表示
最初に公開されたスレッドを表示

arati_mejdal
Level XI
ゴーストデータとは

undefinedJohn Sall explains why we need not be afraid of ghost data.

定量的および定性的データ。数値データと文字データ 式と非構造化テキストデータ これらはあなたが既に知っているかもしれないしそして対処方法を知っているかもしれないすべての種類のデータです。

しかし、あなたがまだ聞いたことがないかもしれないデータの別のカテゴリがあります: ゴーストデータ 。いいえ、それは私がハロウィーンのために作ったものではありません。

SASの共同創設者でエグゼクティブバイスプレジデントであるJohn Sallは、ゴーストデータについて考えてきました。これは実際には存在しないデータです。彼は、ゴーストデータを理解し評価するべきだと言っています。

SASのJMP部門の責任者として、彼は顧客と話し、ソフトウェアの開発を支援しています。彼はまた、データ、統計、技術についてよく読んで考えています。あなたは彼を読んだかもしれませんブログ記事なぜ統計が不可欠なのかそしてデスクトップコンピュータが死んでいない理由 。彼はアメリカ統計学会とアメリカ科学振興協会のフェローです。 そして彼はの基調講演者ですディスカバリーサミット2017 inセントルイスここで彼はゴーストデータについて話します。 ゴーストデータについての私の質問に対する彼の答えを読んでください(1つのばかげた質問を含む)。

ゴーストデータについて教えてください。

ゴーストデータとは、そこには存在しないデータのことです。さまざまな種類があります。たとえば、仮想データがあります。それを見るまではありません。表面上は十分にリアルに見えますが、必要に応じて実現されるだけです。まばらなデータがあり、その欠如はゼロを意味します。希薄性は、数種類の分析において重要な計算上のイネーブラです。欠けているデータもあります。このデータには値を保持するためのスロットがありますが、その値は不明であるため、スロットは空です。別の種類のゴーストデータは、ふりデータであり、これは構成されているデータである。このようなデータは、「What if?」と答えるためにシミュレーションにとって重要です。より多くの種類のゴーストデータがありますが、これら4つはデータ分析にとって重要です。 JMP

私たちは幽霊データを怖がるべきですか?

ゴーストデータを怖がる必要はありません。そこにないのはデータだけです。実データと同じくらい自然です。私たちが持っているデータに感謝するように、私たちはそこにはないデータについての感謝も必要です。それをどのように処理するか、それを使ってモデル化する方法、そしてそれを機能させる方法を知る必要があります。ゴーストデータを適切に処理することは非常に重要です。

ゴーストデータを処理する1つの方法は何ですか?

欠けているデータを見てみましょう。以前は、分析変数の1つが欠けている行をスキップしていました。問題は、欠損値が完全にランダムではない場合、この方法では結果に偏りが生じることです。ここで、欠損値が予測的であると仮定して、欠損値をモデルに直接組み込みます。これは「情報不足」と呼ばれます。2008年の金融危機以前の住宅ローンデータは、情報不足の好例です。住宅ローンの債務不履行の確率をモデル化するとき、「収入」や「負債対収入の比率」などの変数に欠損値があるすべての行がドロップされていると、結果に偏りが生じます。多くの場合、融資申請者はこれらの値を入力すると融資の資格が得られないことを知っていたため、値を省略しました。サンプルデータを提供しているデータテーブルでは、債務対所得比率の欠落が住宅ローンのデフォルトの最も重要な予測因子です。

あなたがハロウィーンのゴーストデータとして行きたいと思えば、あなたのコスチュームはどのように見えるでしょうか?

インビジブルマン、あるいはインビジビリティのマントを使っているハリーポッター、またはそれのメタマテリアル版。 

この投稿のオリジナルは 、English (US) で書かれており、ユーザビリティ向上のため自動翻訳機能を使用して表示しています。コメントを投稿すると、オリジナルの言語(English (US))やご指定の言語 でも表示されます。

コメント
jon_stallings
Level I

これが、すべてのデータアナリストが実験計画法の訓練を必要とする理由です。ランダム化の全体的なポイントは、ゴーストデータの影響を軽減することです。

この投稿のオリジナルは 、English (US) で書かれており、ユーザビリティ向上のため自動翻訳機能を使用して表示しています。コメントを投稿すると、オリジナルの言語(English (US))やご指定の言語 でも表示されます。

arati_mejdal
Level XI

Jonさん、コメントありがとうございます。

この投稿のオリジナルは 、English (US) で書かれており、ユーザビリティ向上のため自動翻訳機能を使用して表示しています。コメントを投稿すると、オリジナルの言語(English (US))やご指定の言語 でも表示されます。

Peter_Bartell
Level VIII

@jon_stallings DOEにはゴーストデータを扱うための多くの戦略がありますが…私は実験の実行の中で潜在的な要因の1つの原因を扱うための手段としてブロッキングを考えます... ... DOEのさまざまな原因による応答値の欠落を何回見ますか。

この投稿のオリジナルは 、English (US) で書かれており、ユーザビリティ向上のため自動翻訳機能を使用して表示しています。コメントを投稿すると、オリジナルの言語(English (US))やご指定の言語 でも表示されます。

Ressel
Level VI

Great - love the reference to the '08 crisis!