キャンセル
次の結果を表示 
表示  限定  | 次の代わりに検索 
もしかして: 
The Discovery Summit 2025 Call for Content is open! Submit an abstract today to present at our premier analytics conference.
言語を選択 翻訳バーを非表示
最初に公開されたスレッドを表示

データセットからクォータサンプルを選択する方法

Samira
Level III

こんにちは、みんな

私は代表的なサンプルを扱う研究に取り組んでいます。すでにデータを収集していますが、代表基準 4 を満たすサブセットを選択する必要があります。サンプルは、次の割り当てを満たす必要があります。
-
性別:男性50%、女性50%。
-
年齢別では、18歳から30歳が1/3、31歳から50歳が1/3、51歳以上が1/3となっています。
-
世帯収入レベル:低所得者層が1/3、中所得者層が1/3、高所得者層が1/3。

調査対象人口の1/5を市内の5つの地域(北部、南部、中央部、東部、西部)ごとに調査

このサンプルを作成するにはどうすればいいでしょうか?

私はJMPプロ17を使用しています

この投稿のオリジナルは 、English (US) で書かれており、ユーザビリティ向上のため自動翻訳機能を使用して表示しています。コメントを投稿すると、オリジナルの言語(English (US))やご指定の言語 でも表示されます。

20件の返信20
Samira
Level III

Re: データ セットから割り当てサンプルを選択する方法

ご尽力に感謝いたします

あなたの提案により、まずグラフビルダーでローカルデータフィルターを使用してデータセットを効果的に探索するという良いアイデアが浮かびました。私のデータでは、いくつかの組み合わせ(中央地域に住み、IM収入のある中年男性など)ではサンプルが0のようです。

この方法で代表サンプルを作成するという考えは、今では実用的ではないようです。最初から使用すべきだったサンプリング手法は、確率サンプリング手法の 1 つです。5 つの地域のみを層として使用する層別ランダム サンプリングが考えられます。次に、各層からランダム サンプルが収集されます。

この投稿のオリジナルは 、English (US) で書かれており、ユーザビリティ向上のため自動翻訳機能を使用して表示しています。コメントを投稿すると、オリジナルの言語(English (US))やご指定の言語 でも表示されます。

txnelson
Super User

Re: データ セットから割り当てサンプルを選択する方法

私はこの質問についてかなり時間をかけて考えましたが、良い答えは思いつきませんでした。 @hogiに似たサンプル データ テーブルは生成しました。以下は、私が使用したコードによる@hogi JSL の変更です。基本的に、読みやすくなり、Age の場合、 @Samiraが述べた分布をより適切に表していると思います。

New Table( "Samp",
	Add Rows( 100000 ),
	Compress File When Saved( 1 ),
	New Column( "gender",
		Character,
		Set Each Value( Match( Random Integer( 1, 2 ), 1, "Male", "Female" ) ),
		Compact()
	),
	New Column( "income",
		Character,
		Set Each Value(
			Match( Random Integer( 1, 3 ), 1, "Low", 2, "Medium", "High" )
		),
		Compact()
	),
	New Column( "region",
		Character,
		Set Each Value(
			Match( Random Integer( 1, 5 ),
				1, "North",
				2, "South",
				3, "West",
				4, "East",
				"Ccentre"
			)
		)
	),
	New Column( "age",
		Character,
		Set Each Value(
			temp = Random Integer( 18, 80 );
			If(
				temp <= 30, "Young",
				temp <= 50, "Middle Age",
				"Old"
			);
		)
	)
)

この投稿のオリジナルは 、English (US) で書かれており、ユーザビリティ向上のため自動翻訳機能を使用して表示しています。コメントを投稿すると、オリジナルの言語(English (US))やご指定の言語 でも表示されます。

Samira
Level III

Re: データ セットから割り当てサンプルを選択する方法

ご協力ありがとうございました

この方法で代表サンプルを作成するという考えは、今では実用的ではないようです。最初から使用すべきだったサンプリング手法は、確率サンプリング手法の 1 つです。5 つの地域のみを層として使用する層別ランダム サンプリングが考えられます。次に、各層からランダム サンプルが収集されます。

この投稿のオリジナルは 、English (US) で書かれており、ユーザビリティ向上のため自動翻訳機能を使用して表示しています。コメントを投稿すると、オリジナルの言語(English (US))やご指定の言語 でも表示されます。

Samira
Level III

Re: データ セットから割り当てサンプルを選択する方法

ご返信ありがとうございます

あなたの言う通りだと思います。

この方法で代表サンプルを作成するという考えは、今では実用的ではないようです。最初から使用すべきだったサンプリング手法は、確率サンプリング手法の 1 つです。5 つの地域のみを層として使用する層別ランダム サンプリングが考えられます。次に、各層からランダム サンプルが収集されます。

この投稿のオリジナルは 、English (US) で書かれており、ユーザビリティ向上のため自動翻訳機能を使用して表示しています。コメントを投稿すると、オリジナルの言語(English (US))やご指定の言語 でも表示されます。

txnelson
Super User

Re: データ セットから割り当てサンプルを選択する方法

それは合理的なアプローチのように思えます

この投稿のオリジナルは 、English (US) で書かれており、ユーザビリティ向上のため自動翻訳機能を使用して表示しています。コメントを投稿すると、オリジナルの言語(English (US))やご指定の言語 でも表示されます。

hogi
Level XII

Re: データ セットから割り当てサンプルを選択する方法

つまり、元の投稿であなたが求めていたのは次のことです:

不均衡層化無作為抽出法ですよね?

そして、その層は性別×年齢×収入×地域の 90 のサブグループです。

この投稿のオリジナルは 、English (US) で書かれており、ユーザビリティ向上のため自動翻訳機能を使用して表示しています。コメントを投稿すると、オリジナルの言語(English (US))やご指定の言語 でも表示されます。

Samira
Level III

Re: データ セットから割り当てサンプルを選択する方法

教科書に載っているさまざまなサンプリング手法を注意深く見直してみたところ、私の当初の考えはどの手法にも当てはまらないことがわかりました。代表的なサンプルを得るには、確率サンプリング手法 (調査対象集団の各回答者に、サンプルに含まれる確率または機会を均等に提供する手法) のいずれかを選択する必要があります。これらの手法には、次の 4 つのタイプがあります。

  • –単純ランダムサンプリング
  • –体系的なサンプリング
  • –クラスターサンプリング
  • –層別抽出法

そのため、最初から層別サンプリングを使用して調査サンプルを取得できたのではないかと思います ( 5 つの地域のみを層として使用し、各層からランダム サンプルを収集します)。層別、クラスター、および割り当てサンプリング手法では、母集団を相互に排他的なグループに分類する必要がありますが、これは私の質問の状況ではありません。そのため、私の最初の質問はそもそも正しくないと思います。

:

この投稿のオリジナルは 、English (US) で書かれており、ユーザビリティ向上のため自動翻訳機能を使用して表示しています。コメントを投稿すると、オリジナルの言語(English (US))やご指定の言語 でも表示されます。

hogi
Level XII

Re: データ セットから割り当てサンプルを選択する方法

うーん、このケースをDOEと比較すると...

適切に設計された DOE では、90 個のサブセットのそれぞれから (単一の) サンプルを選択することさえありません。

[90 個のサブセットからそれぞれ 1 つのサンプル:「完全実施要因」 -> 「高価」への道]

したがって、モデルをある程度単純化するとともに、一部の交差点にエントリが欠落しているデータ セットを使用することもできますか? さらに、一部の交差点 (から一部のデータ ポイント) を意図的に削除することで、階層化された入力データとバランスの取れた DOE の間で何か有用なものを取得できるでしょうか?

@Victor_Gに何か提案があるかもしれません?

この投稿のオリジナルは 、English (US) で書かれており、ユーザビリティ向上のため自動翻訳機能を使用して表示しています。コメントを投稿すると、オリジナルの言語(English (US))やご指定の言語 でも表示されます。

hogi
Level XII

Re: データ セットから割り当てサンプルを選択する方法

undefined

この投稿のオリジナルは 、English (US) で書かれており、ユーザビリティ向上のため自動翻訳機能を使用して表示しています。コメントを投稿すると、オリジナルの言語(English (US))やご指定の言語 でも表示されます。

hogi
Level XII

Re: データ セットから割り当てサンプルを選択する方法

「ランダムサンプリング - 変異体ごと」のアプローチの場合
https://community.jmp.com/t5/Discussions/How-to-Select-a-quota-sample-from-a-data-set/mp/821078/highlight/true#M100011

任意のデータを階層化するための JSL スニペットを作成しました。列を選択して「OK」をクリックするだけです。

librecallはここからダウンロードできます: Recall Function Library

Names Default To Here( 1 );
verbose=0;
//Include( ".\libRecall_v2.jsl" );

objects = {"si^myCols", "s^Ncolumns", "s^Nfolds"};
values = {{}, {1}, {5}};
Try( // issue with projects
	librecall:genArrays( objects, values, "Stratify", verbose )
);

dt = Current Data Table();

nw = New Window( "K Fold Creator",
	<