背景
製品の耐久性は、エンドユーザーとメーカーの両方にとって重要な品質特性であることは明らかです。エンドユーザーにとって、携帯電話の耐久性は特に重要です。たとえば、携帯電話を硬い物の上に落とすと、画面が割れたり、粉々になったりして、携帯電話が使用できなくなる可能性があります。これらの画面の耐久性を評価するために、メーカーは、携帯電話をコンクリートの表面に落とすなど、ユーザーによる一般的な消耗をシミュレートするように設計されたさまざまなテストを一連の画面に対して実施しました。
スクリーン製造会社の材料科学者たちは、アルミノケイ酸ガラスの新しい配合 2 種類を試作してきました。 2 つの配合は、材料の組成と硬化プロセスを変更することによって作成されました。簡単にするために、これら 2 つのレシピをスクリーン タイプAとBと呼びます。
テスト用に、各タイプの画面サンプル10 個が開発されました。各画面は同じモデルの携帯電話にインストールされます。その後、携帯電話は制御された一貫した方法で1メートルの高さからコンクリートの表面に落下しました。バイナリ変数「成功」(損傷なし)と「失敗」(画面損傷)が記録されました。
同社の目標の 1 つは、製造されるスクリーンの 97% が 1 メートルの高さから落下しても損傷を受けないことを保証することです (つまり、全体的な成功率)。
タスク
エンジニアリング チームは、データを通じて次の 2 つの主な質問に答えたいと考えています。
- 各スクリーン タイプが1.0メートルの高さから落下した場合の成功率が少なくとも97%であると結論付けるのに十分な統計的証拠はありますか?
- あるスクリーン タイプが他のスクリーン タイプよりも成功率が高いと結論付ける統計的証拠はありますか?
データ
データは結果/頻度表形式で保存されます。
スクリーン 2種類のスクリーンタイプ( A 、 B )
結果 2つの結果(成功、失敗)
頻度は成功するか失敗するかの電話の数につながる


分析する
母集団比率の信頼区間
まず、配信プラットフォームを使用してデータをグラフで要約します。図1 は、2 つのスクリーン タイプにおける各結果のカウントと割合、および棒グラフを示しています。


図1 分布
作成するには、[分析] > [分布] を選択します。 Y変数として Result を、頻度変数として Frequency を、基準変数として Screen を選択します。
画面タイプAの携帯電話10 台すべて ( 100% ) では画面の損傷は発生しませんでしたが、画面タイプBの携帯電話10台のうち 1 台 ( 10% ) では損傷が発生しました。これは20 台の携帯電話のテストの結果にすぎないため、画面A が画面 Bよりも一般的に優れているとすぐに結論付けるのではなく、より正式な統計分析を行う必要があります。
なぜなら、実際には 2 つの画面タイプ間の全体的な成功率が同じであれば、このようなテストでこのような結果が発生する可能性があるからです。私たちの分析により、この可能性を定量化することができます。また、統計的な不確実性の尺度とともに、各スクリーン タイプの全体的な成功率を推定することもできます。
この分析は、まず各スクリーン タイプの全体的な成功率の95%信頼区間の推定値を計算することから始めます。信頼区間は、1 つのサンプルのみに基づいてパラメータの可能な値の範囲を提供することにより、母集団パラメータを推定します。
図2 はこれらのデータに基づく信頼区間を示しています。


図2分布と信頼区間
作成するには、各画面タイプの棒グラフの横にある赤い三角形から信頼区間0.95を選択します。
これらの範囲の解釈は次のとおりです。1 メートルの落下後のスクリーン タイプAの全体的な成功率は72.2%から100%の間であると95 % の確信度があり、 1メートルの落下後のスクリーン タイプBの全体的な成功率は59.6%から98.2%の間であると 95% の確信度があります。信頼区間は推定値の統計的不確実性を定量化します。サンプルサイズが小さいため(画面タイプごとに10 台の電話)、不確実性は非常に大きく、それが信頼区間の幅に反映されています(画面タイプAの場合は100 – 72.7 = 27.3 、画面タイプBの場合は98.2 – 59.6 = 38.6 )。
技術的注記: 図2に示されている信頼区間と次のセクションで実行される仮説検定は、二項分布を使用する統計手順に基づいています。人口比率を推定するもう一つの一般的な方法は、正規分布に基づいています。この手法を使用した結果は、ここで示されているものとは異なります。
95% の信頼度レベルで必要な97% の全体的成功率を統計的に証明するには、信頼区間の下限が97% を超える必要があります。つまり、成功率の推定値はすべて97%より大きくなければなりません。私たちのデータでは、スクリーンAの下限は72.2%で、スクリーンBの下限は59.6%です。明らかに、成功率が97%を超えることを示す統計的証拠は生成されていません。実際、これらの信頼区間の誤差の範囲は、わずか10 台の電話機のテストに基づいて95% の信頼度でこのレベルの成功率を示すことは不可能であることを示しています。スクリーンタイプAで完璧な結果が得られたとしても、全体的な成功率は最大で72.7%としか推定できません。 97.5% - 100% の信頼区間など、誤差の許容範囲が小さい信頼区間を生成するには、十分な数の携帯電話をテストする必要があります。
1つの割合に対する仮説検定
信頼区間は、全体の成功率97%という望ましい基準が満たされていないことを示しているため、同じ結論につながるため、仮説検定を実行する必要はありません。引き続き仮説検定を実行して、出力をどのように進めて解釈するかを示します。
興味深い仮説は次のように定式化できます。
H0 : PA≤0.97
H A : PA >0.97
H 0 : P B ≤ 0.97
H0 : PB >0.97
各画面タイプの全体的な成功率は次のとおりです。
図3 は、分布出力に追加された仮説検定の結果を示しています。


図3分布と仮説検定
作成するには、各画面タイプの棒グラフの横にある赤い三角形からテスト確率を選択します。仮定の成功確率として0.97を入力します。仮説値よりも大きい値を選択する確率 (正確な片側二項検定)。
両方のテストのp値は大きく ( スクリーンAでは0.7374 、スクリーンBでは0.9655 )、すでに決定したように、有意水準0.05を選択した場合、望ましい97% の成功率が達成されるという統計的証拠がないことを示しています。
重要なのは、私たちの結論は、現在の分析がスクリーンが基準を満たしていないという統計的証拠を生み出していると解釈されるべきではないということです。対照的に、私たちはそうであると結論付ける統計的証拠を提示していません。おそらく、より多くのスクリーンをテストすれば、必要な証拠を生成できるでしょう。
2つの比率の差に対する信頼区間と仮説検定
落下テストのもう 1 つの目的は、2 種類のスクリーンの成功率が異なると結論付ける統計的証拠があるかどうかを評価することです。信頼区間にどの程度の重複があるかに注目してください。スクリーンAでは[72.2% - 100%] 、スクリーンBでは[59.6% - 98.2%]です。このことから、2 種類のスクリーンの成功率に差があると結論付けるには統計的証拠が不十分であることがわかります。これも、テストされた画面の数が少ないことが原因である可能性があります。より多くのスクリーンをテストすると、違いを証明するために必要な統計的証拠が得られる可能性があります。
それでも、この演習では、テストされた多数の電話機を使用してこれらの分析を実行する必要があるため、2 つの母集団の割合を比較するときに通常実行される統計分析の種類を示します。 5 つの異なる統計手法を紹介します。
- 分割表分析
- 2標本比率の仮説検定
- 2つの比率の差の信頼区間推定
- 相対リスクの信頼区間推定
それぞれの分析は同じ結論に達します。つまり、2 種類のスクリーン間で成功率に違いがあると結論付けるには統計的証拠が不十分です。最初の 3 つの仮説検定は次のように記述できます。
H 0 : P A =P B
HA : PA ≠ PB
または同等
H 0 : P A -P B =0
H A : P A -P B ≠ 0
ここで、 PAとPB はそれぞれスクリーン タイプAとBの全体的な成功率です。
図4 は分割表分析の出力です。


これを作成するには、「分析」 > 「Y をXでフィット」を選択します。結果をYに、応答をXに、画面を係数に、頻度を頻度に入力します。モザイク チャートを右クリックし、[セル ラベル] の下の [パーセント ラベル] を選択します。分割表出力の赤い三角形は、表のセルに表示される情報の選択肢を提供します。
尤度比とピアソンのp値はそれぞれ0.2303と0.3049を示しましたが、予想通り、2種類のスクリーニング間の全体的な成功率の差を示唆する十分な統計的証拠は得られませんでした。
図5 には、仮説を検証する別の方法である 2 サンプル比率検定の結果が示されています。 2 つ以上のカテゴリがある場合 (スクリーン タイプC 、 Dなど)、分割表分析のカイ 2 乗検定を使用できますが、ここでの場合のようにグループが 2 つしかない場合は、2 サンプル比率検定のみを使用できます。

作成するには、上部の赤い三角形から「2 サンプル比率検定」を選択します。
予想通り、この統計分析手法のp値は大きく( 0.5338 )、 2種類のスクリーニング法の成功率に差があるという統計的証拠はないことを示しています。また、 PA - PB (全体の成功率の差)の信頼区間は[-.018, 0.346]であることにも注意してください。これは次のように解釈されます: スクリーン タイプAの全体的な成功率は、スクリーン タイプBの全体的な成功率よりも0.18単位小さく、最大0.346単位であると95% の信頼度で推定できます。つまり、スクリーン タイプAの全体的な成功率は、スクリーンタイプBの全体的な成功率よりも小さいか大きい可能性があると推定されます。間隔が完全に0より大きいか0未満の場合、選択した信頼レベルで統計的に有意な証拠があります。この信頼区間は、 PA - PBの値が0が妥当であることを示しています。つまり、成功率に違いはありませんでした。
相対リスクの信頼区間
2 つのサンプルの比較分析を実行する 4 番目の方法は、相対リスクと呼ばれる成功率の比率を調べることです。この比率の仮説検定フレームワークは次のように記述できます。ここで、 PAとPB はそれぞれスクリーン タイプAとBの全体的な成功率です。
H 0 : P A /P B =1
H A : P A /P B ≠ 1
このアプローチでは、関心のあるパラメータを、2 つの成功率の差ではなく、その間の増減率として表現します。これは 2 つのスケールの違いを説明するのに便利な方法です。
図6にこの分析の結果を示します。

これを作成するには、上部の赤い三角形から「相対リスク」を選択します。希望する応答結果と分子のカテゴリを選択します。
信頼区間[0.904, 1.366]は次のように解釈されます。 95%の信頼度で、スクリーン タイプAの全体的な成功率は、スクリーン タイプAの全体的な成功率の90.4%から136.6%の間であると推定できます。 つまり、スクリーン タイプAの全体的な成功率は、スクリーン タイプBの全体的な成功率よりも低い場合もあれば、高い場合もあります。 相対リスクの信頼区間推定値が1よりも完全に大きいか1未満の場合にのみ、選択した信頼レベルで統計的に有意な証拠が存在します。この信頼区間は、 PA / PBの値が1 が妥当であることを示しています。つまり、成功率に違いはありませんでした。
統計的洞察
弊社の分析により、必要な97% の全体的成功率を証明する統計的証拠がデータ内に存在しないことが判明しました。また、2 つのスクリーニング間で全体的な成功率に違いがあったと結論付ける統計的証拠も生成されませんでした。前述のように、私たちの分析によって、スクリーニングが必要な成功率を満たしていないという統計的証拠が得られたと結論付けるべきではありません。むしろ、そうであると結論付ける統計的証拠を提示していないのです。繰り返しますが、2 種類のスクリーンの成功率が同じであると結論付ける統計的証拠はまだ生成されておらず、単に異なると断言する統計的証拠は生成されていません。さらなる検査によりこの証拠が得られる可能性があります。
この記事の事例は「 携帯電話の画面の耐久性 - パート 1 | JMP 」からのものです。
ここにコメントを追加するには、ご登録いただく必要があります。 ご登録済みの場合は、ログインしてください。 ご登録がまだの場合は、ご登録後にログインしてください。