- 新着としてマーク
- ブックマーク
- 購読
- ミュート
- RSS フィードを購読する
- ダイレクトリンクを取得
- 印刷
- 不適切なコンテンツを報告
データセットからクォータサンプルを選択する方法
こんにちは、みんな
私は代表的なサンプルを扱う研究に取り組んでいます。すでにデータを収集していますが、代表基準 4 を満たすサブセットを選択する必要があります。サンプルは、次の割り当てを満たす必要があります。
-
性別:男性50%、女性50%。
-
年齢別では、18歳から30歳が1/3、31歳から50歳が1/3、51歳以上が1/3となっています。
-
世帯収入レベル:低所得者層が1/3、中所得者層が1/3、高所得者層が1/3。
調査対象人口の1/5を市内の5つの地域(北部、南部、中央部、東部、西部)ごとに調査
このサンプルを作成するにはどうすればいいでしょうか?
私はJMPプロ17を使用しています
この投稿のオリジナルは 、English (US) で書かれており、ユーザビリティ向上のため自動翻訳機能を使用して表示しています。コメントを投稿すると、オリジナルの言語(English (US))やご指定の言語 でも表示されます。
- 新着としてマーク
- ブックマーク
- 購読
- ミュート
- RSS フィードを購読する
- ダイレクトリンクを取得
- 印刷
- 不適切なコンテンツを報告
Re: データ セットから割り当てサンプルを選択する方法
投稿と回答をざっと読んでみたところ、「代表的な」データセットには異なる意味合いがある可能性があるため、目的がまだ 100% 明確ではありません。
人口統計データ (年齢、性別、場所など) に基づいて、応答/現象をよりよく理解してモデル化したいですか、それとも、人口について何らかの推論/一般化を行うために「代表的な」サンプルが必要ですか?
- 最初のケースでは、応答/現象を特定の属性にリンクしたいため、バランスの取れたデータセットを用意し、年齢、性別、場所などのレベルをバランスよく揃えて、結果のモデリングと解釈を容易にすることが最善です。
DoE アプローチを使用すると、カスタム設計を「ゼロから」構築してさまざまな属性に対応する適切な人物を見つけるか、収集された人口統計データを使用して候補セット アプローチによって D-最適設計を構築すると、さまざまな人口統計要因を可能な限り独立して個別に調査および分析するのに役立ちます。 - 2 番目のケースでは、サンプルの結果を母集団に一般化したいため、母集団の代表的なサンプル (母集団と同じくらい「偏りのある」) が必要です。したがって、母集団が 40/60 に偏っている可能性があるため、男性と女性が 50/50 にならない可能性があります。そのため、この人口統計の特殊性を尊重する必要があります。
5 つの地域で収集した人口統計データに層別アプローチを使用すると役立つ場合があります。2 つの側面を考慮する必要があるかもしれません。人口に基づいて地域のサンプルを作成すること (サンプルの地域人口に対する割合が同じになるようにしてください。人口密度の高い地域ではサンプル データセットにより多くの人々が含まれるようになります)、および人口統計データ (性別、年齢など) に基づいて作成することです。
どちらの場合も、サンプル作成方法をよりよく理解し、情報を提供するために、5 つの地域の人口に関するデータをできるだけ多く収集することをお勧めします。
余談ですが、人口統計データのセグメンテーションに関する文献も見つかります。ただし、年齢範囲が異なるため、ここで提案されている年齢セグメンテーションが本当に役立つかどうかはわかりません。18~30 歳 (12 歳)、31~50 歳 (19 歳)、51 歳以上 (20 歳以上?)。また、世帯収入レベルの低/中/高をどのように定義しますか? 分析に基づくのですか、それとも事前に定義されたしきい値/基準に基づくのですか?
人口統計セグメンテーションの例: https://xperiencify.com/what-is-demographic-segmentation/
この回答が何かのアイデアを与えてくれることを願っています。
この投稿のオリジナルは 、English (US) で書かれており、ユーザビリティ向上のため自動翻訳機能を使用して表示しています。コメントを投稿すると、オリジナルの言語(English (US))やご指定の言語 でも表示されます。