JMPジャパン事業部では、今年3月から4月にかけて「JMP情報局」というセミナーを毎週火曜日、全8回で実施しています。このセミナーは、毎回30分という短時間でJMPの様々な情報をお伝えすることを目的としており、想定を上回る多くの方々にご参加いただいています。
JMP 情報局のオープニング
「JMP情報局」の目的
本セミナーの副題は、"JMPをもっとわかりやすく、たのしく"というものです。主に次のことを意識したセミナーを目指しています。
- JMPのさまざまな機能、情報を知っていただくきっかけに
- データ解析、統計解析のたのしさを知るきっかけに
さらに、通常のセミナーでは触れることが少ない、またはできないJMP、統計に関する情報を提供しております。
JMP情報局 詳細、お申込みページ(4月25日まで受け付け)
JMP情報局 ~JMPをもっとわかりやすく、たのしく~ | JMP
このブログを執筆する時点で、既に第4回のセミナーが終了しています。そこで、これまでに実施した主要な内容をまとめてみました。セミナーにご参加された方は、この記事を復習としてご覧いただくことで、学んだことの記憶がより定着するかと思います。
※第5回から第8回(最終回)の主な内容は第8回の終了後、別ブログにて記載します。
第1回(本放送3/5、再放送3/7 ) JMP初心者にお勧めの便利な機能(Tips)
JMPのオプションである [分析の再起動]、[自動再計算] について説明しました。
何度でもやり直せる ~「分析の再起動」による使い方の取得
JMPにはさまざまなサンプルデータが含まれており、それらサンプルデータの多くには分析のスクリプトが保存されています。
例えば、JMPのサンプルデータ「Car Poll.jmp」を見ると、さまざまなスクリプトが保存されていることが分かります。もし「追加変数を用いた多重対応分析」を行いたい場合、どのように操作すれば良いのでしょうか。該当するスクリプトを実行して、分析をやり直してみるのです。
レポート左上の赤い三角ボタンから、[やり直し] > [分析の再起動] を選択します。
すると、列を指定するウィンドウが表示され、「生産国」、「サイズ」を[Y,目的変数] に、「性別」を[Z, 追加変数]に指定されていたことがわかります。
データが変更されたら分析レポートはどうなる? ~「自動再計算」の仕組み~
JMPでは、[二変量の関係]、[グラフビルダー]のプラットフォームのどちらでもモザイク図が描けます。例えば、先ほどのサンプルデータ「Car Poll.jmp」でモザイク図を描いた後、データテーブルに戻り最初の20行を除外したときのレポートを示します。
20行を除外した際、[グラフビルダー]では、20行のデータを除いてモザイク図を描き直しています。一方で[二変量の関係]ではモザイク図が描き直されていません。この違いは、[自動再計算]が有効か否かの違いによります。
[グラフ]メニューにある[グラフビルダー]などのプラットフォームは、デフォルトで[自動再計算]がオンになっています。そのため、データを除外や変更した場合、これらの変更がグラフに反映されます。一方で、[分析]メニューにある[二変量の関係]などのプラットフォームの多くは、デフォルトで[自動再計算]がオフに設定されています。データが変更されても、その変更は反映されません。変更をグラフに反映させたい場合は、[自動再計算]を手動でオンにする必要があります。
第2回(本放送3/12、再放送3/14 ) JMPを使ってインタラクティブに統計を学ぶ
JMPには、統計の概念をインタラクティブに学ぶことができる多くのサンプルスクリプトが搭載されています。この回ではそのうち回帰分析、相関、信頼区間、中心極限定理を理解するのに参考となるスクリプトをデモ形式で紹介しました。
セミナーで紹介したJMPのサンプルデータ、スクリプト
●相関、回帰
- demoCorr.jsl
- Corrsim.jmp
- demoLeastSquares.jsl
「demoLeastSquares.jsl」 では、プロット点対して自身でフィットする直線を引き、その結果としての残差平方和を確認しながら、最小二乗法の概念を学ぶことができます。
●信頼区間
「Condidence.jsl」では、乱数シミュレーションにより信頼区間の概念を学ぶことができます。
平均の95%信頼区間とは、あるデータセットの真の平均がその区間内に含まれる確率が95%であると推定される区間のことです。
以下の図は、平均5, 標準偏差1の分布から20個のサンプルを抽出して95%信頼区間を構成し、それらが真の母平均である5を含んでいるか否かを調べたものです。これらのプロセスを100回繰り返し、それだけの信頼区間が真の平均値5を含むか否かを観察します。信頼区間が5を含んだ場合は黒色の棒、含まなかった場合は赤色の棒で示しており、この例では、100個中95個の信頼区間が母平均である5を含んでいます。これが信頼区間の概念になります。
●中心極限定理
- Sampling Distribution of Sample Means.jsl
「Sampling Distribution of Sample Means.jsl」では、統計学における重要な定理である「中心極限定理」を学ぶことができます。
中心極限定理は大まかにいうと次のような定理です。
母集団の分布がどんな分布であっても、標本平均は正規分布で近似できる。
下図の例は一様分布から25個の乱数を抽出し、それらの分布をヒストグラムで表示したのが中段の「Distribution of Sample Data」の箇所です。この25個について平均を求めたものが標本平均です。乱数の抽出を1,800回ほど繰り返すと、1800個の標本平均が求められます。下段の「Distribution of Sample Means」は、これら1,800個の標本平均の分布をヒストグラムで視覚化したものです。
「Distribution of Sample Means」のヒストグラムを見てわかる通り、標本平均の分布は正規分布に従うことが視覚的に確認できます。
第3回(本放送3/19、再放送3/21 ) Excelプロファイルについて
Microsoft Excelで保存したモデルをJMPのプロファイルを使って視覚化できる「Excelプロファイル」の機能とデモを実施しました。
- JMPのプロファイルを使うと、Excelに設定した数式(モデル)において、複数の入力変数が出力変数にどのように影響を与えているのかがわかります。
- プロファイルには「シミュレータ」という機能があります。Xに分布を仮定し、モンテカルロシミュレーションにより、Yの分布をシミュレートすることができます。
関連して、Excelプロファイルに相当することをJMPだけで完結する方法についてのブログを執筆しています。
「Excelプロファイル」でできることを、JMPのプロファイルだけで完結させる方法 - JMP User Community
第4回(本放送3/26、再放送3/28 ) Taylor Swift(テイラー・スウィフト)の楽曲分析
Taylor Swiftさんのアルバムに収録されている楽曲(148曲を対象)に対し、歌詞によく含まれる単語や人気がある楽曲の要因を分析してみました。
この解析を通じて、データ分析をするときの重要なポイントを示しました。
- データの中身を詳しく知る、調べる。
- 固有技術、固有知識をフル活用して分析結果を考察、解釈する。
以下は、歌詞のワードクラウドです。
by 増川 直裕(JMP Japan)
Naohiro Masukawa - JMP User Community
You must be a registered user to add a comment. If you've already registered, sign in. Otherwise, register and sign in.