こんなこともできる!「JMP 19」の新機能 ~ その3. 新しい Col () 関数とその利用例 ~
最新バージョン「JMP 19」では、「二変量の関係」プラットフォームの「一元配置分析」(Yに連続尺度、Xに名義・順序尺度を指定)のレポートにおいて、「Games-Howell検定」による平均の比較を行うオプションが追加されました。 ----------------------------------------------------------------------------------------------------------------- Games-Howell検定(JMPのホバーヘルプの説明より) すべてのペアの平均を比較する検定であり、また「各グループの誤差分散がすべて等しい」と仮定できない状況に対処した検定である。 -----------------------------------------------------------------------...
ついに、新しいバージョン「JMP 19」がリリースされました! もちろん「JMP 19」ではさまざまな機能が追加されています。主な新機能やアピールポイントについては、別のブログポストで紹介されています(原文は英語)。 そこで私の方では、あまり大々的にアピールはされていないけども、ユーザにとって便利で有用だと思える機能を数回にわたり紹介していきます。 第1回となる今回は、消費者調査や満足度調査などで役立つ「多重応答」についての新機能を取り上げます。JMP 19では「多重応答」列を用いたフィルタリング、集計表の作成ができるようになりました。 多重応答とJMPの設定 多重応答とは、アンケート調査などにおける「複数回答」(当てはめるものをすべて、あるいはいくつか選択して回答する形式)に対応するJMPの尺度やプロパティです。 下図は、ある企業研修のアンケートの回答をまとめた...
本記事では、医薬品開発における精度評価で用いられる「室内再現精度(Intermediate precision)」と「併行精度(Repeatability)」をJMPを用いて算出する方法を例題に沿って説明します。 この記事を書くきっかけとなったのは、最近公開した小野薬品工業株式会社様のユーザー事例 です。この事例の中では、室内再現精度や併行精度の評価方法として、制限付き最尤法(REML)を用いて分散成分を推定するといったコメントがあります。 この事例をご覧になったユーザーから「この方法を詳しく説明してほしい」という要望をいただいたため、本記事を執筆することにしました。 室内再現精度と併行精度とは ここでいう「精度」とは、同一試料(検体)を複数回測定した際の測定値間のばらつきを評価することを指します。 医薬品のガイドラインである「ICH-Q2 分析法バリデーション」では、次...
ロバストエンジニアリング(Robust Engineering)とは、工程中に避けられないばらつきが存在しても、安定して規格内の製品を生産するための技術です。 ここでいう「安定」とは、気温や湿度といった製造環境の変動(誤差因子)に左右されず、品質を維持できる状態を指します。誤差因子は通常制御が困難ですが、製品の応答に影響を及ぼす要因の多くは制御可能な因子(制御因子)として扱われます。 したがって、誤差因子が変動しても製品が仕様限界内に収まるようにするためには、適切な制御因子の条件(水準)を探索・設定する必要があります。 このとき、JMPでは「予測プロファイル」や「シミュレータ」を用いて、最適な制御因子の条件を見つけることができます。 本記事では、例題を通してその手順を紹介します。 例題:穴あけ加工で穴径を10mm に安定させるには ある材料加工会社では、穴あけ加工における...
下図は、カテゴリ数が多いデータについて、JMPとMicrosoft Excel(以下、Excelと表記)でツリーマップを作成した例です。JMPでは「グラフビルダー」プラットフォームを使用しています。 一見すると、どちらも同じようなグラフを描けるため、「どちらのソフトで描いても違いがないのでは?」と思われるかもしれません。 しかし、JMPでは、JMPならではのツリーマップの特長があります。 ツリーマップは、多数のカテゴリを視覚的に比較するのに適したグラフで、各カテゴリを面積の大小で直感的に表現できます。情報量が多いときでも全体の構成や傾向を把握しやすいのが特長です。 本記事では、JMPの「グラフビルダー」を使ったツリーマップ作成の基本操作と、JMPのツリーマップの特長を5つご紹介します。 JMPでのツリーマップを作成する基本操作 主にJMPのサンプルデータ「Nic Ad...
普段、JMPユーザの方と接していると、私たちが思いがけない機能を「JMPの良い機能」として挙げていただくことがあります。 今回ご紹介するJMPの「By」変数を指定する機能も、私にとっては日常的に使う機能であるため、当たり前だという先入観があり、これまで特段アピールしてきませんでした。 しかし近年、このByの機能について「非常に便利だ」、「JMPを使っていてとても役立つ」というコメントを複数のJMPユーザの方からいただくようになりました。そこで本記事では、By機能の利用例と、現時点の最新バージョン「JMP 18」で新たに追加された便利な機能についてご説明します。 最後に、最近日本で公開された、By変数の有用性を紹介するユーザ事例も併せてご紹介します。 By変数の指定とそのレポート By変数の指定とそのレポート JMPでは 、[分析] メニューにある多くのプラットフォームで [...
下図は、JMPの「二変量の関係」で表示したレポートです。どちらのグラフでも、Y軸の「トリグリセリド」に他のデータより値が極端に大きい値(外れ値とみなせる値)が存在することがわかります。これら外れ値の影響を小さくする「ロバストあてはめ」を行ったものが、緑色の線です。 JMPの「二変量の関係」では、Yに連続変数、Xに連続変数を指定したときの「二変量」のレポート、およびYに連続変数、Xに名義変数・順序変数を指定したときの「一元配置」のレポートにおいて、「ロバストなあてはめ」のオプションを適用できます。 本記事では、データに外れ値が含まれて場合の対処方法を示し、その一つであるロバスト推定について、通常の推定方法と比較しながら、その考え方と実施例を解説します。 以前、あるJMPのお客様から、JMPにはこのロバストな推定機能があるのが良いとのコメントを頂いたことがあり、他のユーザー...
先日、JMPジャパン事業部で実施したイベントにおいて、ご発表された方の一人から、ルートコーズ(根本原因)を特定方法の一つとして、多変量管理図が紹介されていました。 さらに、このイベントにご参加された方を対象としたアンケートでは、この「多変量管理図」の機能が有用に感じたというコメントを多くいただきました。 多変量管理図自体は、以前から品質管理における管理図の一種として知られていますが、JMPに搭載されている「モデルに基づく多変量管理図」(MDMVCC; Model Driven Multivariate Control Chart)は、多変量の工程を監視できるだけではなく、個々の工程の全体的な変化の寄与を対話的に掘り下げて調査し、工程を診断することができます。 「モデルに基づく多変量管理図」のレポート 本記事では多変量管理図の概要や役割を説明し、JMPの「モデルに基づく多変量...
下の図は、2000年~2024年の6月における、日ごとの最高気温の平均(青色の点)と最低気温の平均(赤色の点)線で結んだグラフです。 上記の説明だけでも、このグラフが何を示しているか、おおよそイメージできるのではないでしょうか。 このように、2つの数値(例:最低気温と最高気温)を線で結ぶことで、ダンベルのような形になることから、このグラフは「ダンベルチャート(Dumbbell Chart)」と呼ばれています。 ダンベルチャートは、2つの値の差や変動幅を視覚的に表現する際に有効で、特に時間的変化やグループ間の差を示すのに適しています。 本記事では、JMPの「グラフビルダー」を使って、このダンベルチャートを作成する方法をご紹介します。 グラフビルダーでは、直接「ダンベルチャート」というグラフタイプはありません。作成するポイントとしては、「区間」ゾーンに2つの数値変数を指定...
本記事では、空間的指標を用いた階層型クラスター分析を活用し、試行錯誤をしながらウェハーマップの欠陥パターンを分類した事例を紹介します。 下図のウェハーマップでは、各ダイ(チップ)の青色が正常、赤色が欠陥を示しています。 下図は9枚のウェハーマップにおける、欠陥パターンの分類例です。 Ring:円周上に欠陥が分布、Center:中心付近に欠陥が分布 Donut:ドーナツ状に欠陥が分布、Scratch:直線状に欠陥が分布 このような分類は、人間の感覚で行うことは可能ですが、大量のウェハーマップがある場合、クラスター分析を用いていくつかのパターンに自動的に分類することを検討します。 空間的指標を用いたクラスター分析 クラスター分析は多変量のデータをもとに、似た値をもつ行(この例では「ウェハー」)をいくつかのグループにまとめていく手法です。 ウェハーマップのようにXY座標で...
本記事では、医薬品の分析法開発における実験計画法(DOE)をJMPを用いて実施する例を紹介します。 近年、分析法の開発に関するガイドラインである ICH-Q14の整備が進んでおり、"より進んだ手法を活用した分析法"が注目されています。 分析法の開発において品質を科学的根拠に基づいて検討する手法は、AQbD(Analytical Quality by Design)と呼ばれており、その実現方法の一つとして、実験計画法(DOE)の活用が提唱されています。 例えば、以下のようなHPLCの構成において、最適な操作条件を求めることが、分析法開発の一例として挙げられます。 分析例:HPLCの操作条件最適化 目的:日本薬局方が定めるピークの完全分離(分離度 ≧ 1.5)を実現する分析法を開発する。 この目的を実現するために、実験計画法の考え方に基づいて実験を行い、得られ...
近年のJMPのバージョンアップ において、最新版のJMP 18ではt検定における効果量「Cohenのd」(Cohen's d)を、JMP 17以降では回帰分析における効果量「η2」(イータ2乗)、「ω2」(オメガ2乗)を出力できるようになりました。 効果量とは、統計モデルにおける説明変数(要因)が目的変数に与える影響の大きさを示す指標です。要因が(偶然ではなく)目的変数に影響を与えているかを示す指標としてp値がありますが、これは統計的な有意性を判断するものであり、効果の大きさを示すものではありません。 JMPでは「モデルのあてはめ」のレポートとして、以下の「効果の要約」が表示されます。このレポートでは、p値が小さい順(対数価値が大きい順)に並びますが、これは性別、薬、性別*薬の順に効果が大きいことを直接示すわけではありません。あくまで統計的な有意性の大きさを示しています。 ...
機械学習の分野では、変数が多いデータを扱うことが多く、そのようなデータを扱うと多重共線性が発生することがあります。その際、多重共線性を回避する手法であるLassoをはじめとする正則化回帰が用いられることがあります。 JMP Proでは「一般化回帰」という手法としてこの正則化回帰を利用でき、パラメータ推定値(回帰係数)を収縮や変数選択によって、多重共線性を影響を抑えた安定したモデル推定が可能になります。 以下の図は、Lassoによって回帰係数が収縮されたときの様子を示しています。レポート「元の説明変数に対する推定値」を見ると、効果の小さい説明変数は0(ゼロ)に収縮されており、Lassoが変数選択を行っていることが確認できます。 では、多重共線性が存在するデータについて、Lasso回帰はどのように有効なのでしょうか。本記事では、応答(Y)との真の関係をあらかじめ定めた仮想データを用い...
みなさんは、次のようなグラフをご覧になったことはありますでしょうか?近年、さまざまな分野で活用されているグラフです。 このグラフをはじめて見る方も、何となくその意味を感じ取ることができるのではないでしょうか。 このグラフは、「サンキーダイアググラム(Sanky Diagram)」と呼ばれています。 上記のグラフは色の好みを尋ねたアンケートの結果例です。「一番好きな色」、「性別」、「年齢」という設問を横軸に配置しており、各軸における間隔の太さは、回答数の割合に比例しています。 グラフからは「50代はBlueを好む割合が高い」、「40代の女性はPurpleを好む割合が高い」などの傾向が一目でわかります。 本記事では、まずサンキーダイアグラムの概要を説明し、その後、2つの分析例をもとに、JMPでサンキーダイアグラムを描く方法を紹介します。記事の最後には、操作方法を示したビデオも...
先日、昨年(2024年)の日本の出生数(速報値)が発表され、過去最低の約720,988人であることが明らかになりました。 昨年末には「70万人を割るのではないか」との予測もありましたが、なんとか踏みとどまりました。2015年からの出生数の推移をみると以下の通りです。毎年減少を続けており、2024年の出生数は2015年と比べて約3割減少しています。 昨年実施した出生数の予測に対する答え合わせ 実は、ちょうど昨年の今頃、2023年までの出生数のデータをもとに、時系列分析を用いて2024年の出生数を予測していました。「状態空間平滑化モデル」、「ARIMAモデル」の2つの手法による予測結果を以下に示します。 2024年始めに行った2024年の出生数予測 実際の出生数は予測よりやや下振れしたものの、ある程度の精度で予測できていました。特に、状態空間平滑化モデルによる予測誤差はわずか-0.7...
「ポップコーンにキャラメルがかかっているだけで、こんなにおいしいなんて!」 筆者が初めてキャラメルポップコーンを食べたときの感動は今でも忘れられません。普段はあまりポップコーンを食べることはありませんが、キャラメルポップコーンだけは好んで食べています。 スーパーにいくと、さまざまなキャラメルポップコーンが販売されています。いくつか試してみると、「これはおいしい!」と思うものや、キャラメル感が強いもの、味が控えめなものなど、それぞれに特徴があることがわかりました。 ちょうどその頃、JMPに「MaxDiff計画」という新機能が追加されました。「これはキャラメルポップコーンのおいしさを調べるために使えそうだ!」と思い、弊社(JMP Japan)の社員に協力をお願いし、調査を実施しました。かなり前の調査にはなりますが、その結果を報告します。 MaxDiff計画とは? 消費者調査では、「選...
下図は、12人の患者に特定の薬剤を投与した際の薬物濃度の時間経過を示す折れ線グラフです。薬物は投与後に体内で吸収され、濃度が急激に上昇した後、分布や代謝によって濃度が緩やかに低下します。このグラフは、薬物動態の基本的なパターンを示しています。 患者ごとの折れ線を観察すると、濃度の変化に個人差が見られます。この差異は通常、薬物の種類、投与経路、患者個々の特性(例:体重や代謝能力)などによるものです。 例えば、体重が大きい患者では分布容積が増加し、最大濃度(Cmax)が低くなる可能性があります。また、投与量や薬剤の種類によっても濃度推移が変化することがあります。 これら、薬物動態に影響を及ぼす可能性がある要素は「共変量」と呼ばれ、共変量の違いによって薬物濃度はどのように影響を及ぼすかを解析することがあります。 本ブログでは、JMP(JMP Pro) の「曲線のあてはめ」プラットフ...
「工程のスクリーニング」は、多数の工程を一度に評価できるプラットフォームです。各工程における工程能力や管理図の指標を算出し、重要な工程を効率的にスクリーニングできます。 このプラットフォームでは、次のような「シフトグラフ」を描けるのはご存じでしょうか? このグラフにより、どの工程でいつシフト(後述)が発生したのかを視覚的に考察できます。また、気になる工程についてはドリルダウンで詳細に分析できます。 本ブログでは、日本各地の気温データを一種の「工程」とみなし、気温の急激な上昇(シフト)がいつ発生したか、また観測地点ごとの上昇幅の違いについて考察します。 分析対象 対象地域:日本の管区気象台および地方気象台(データが存在する58地点)対象期間:1995年~2024年(30年間)に対し、各年6月から8月(夏)のデータ指標:日ごとの平均気温、最高気温、最低気温について、3か月間の平均を算...
このブログでは、経済や社会分野で所得や貯蓄の格差を分析する際に用いられる「ローレンツ曲線」と「ジニ係数」について説明します。併せてMLB(メジャーリーグベースボール)の各チームにおけるホームラン数の偏りを分析するために、JMPを用いてローレンツ曲線で視覚化し、ジニ係数で定量化した例を紹介します。 不平等さを測る指標:ジニ係数とローレンツ曲線 データの偏りや不平等を定量化する指標として、「ジニ係数」がよく知られています。そして、その不平等を視覚的に表現するために「ローレンツ曲線」が用いられます。 ジニ係数は「不平等の指標」とも呼ばれ、所得格差や教育格差など、さまざまな分野で格差の度合いを示す際に使われています。 下図は、家庭における所得格差を視覚化したローレンツ曲線(青色)です。横軸は家庭の累積割合、縦軸は累積所得割合を示します。所得格差がなく平等の場合、ローレンツ曲線は点線で示...