SAS Institute Japan株式会社のJMPジャパン事業部でシニアテスターを行っています小野裕亮と申します。
■(1) Fisher正確検定の計算量が爆発するのは、2×2分割表よりも大きい場合(たとえば、5×5分割表)です。
2×2分割表では、計算量が爆発することはありません。2×2分割表よりも大きいm×n分割表でどれぐらいの大きさの時にどれぐらいのスペックのマシンでFisher正確検定の計算が終わらなくなるのかは、何かしらの先行研究での言及があるのかもしれませんが、計算量を求める近似式はなく、実質的には「やってみないと計算が終わるかどうかが分からない」という状態になっています。
(2) 「2群間の比較を行う検定をしたい」という意味であれば、JMPでもいくつかの群間比較の検定(や信頼区間)を算出できます。
■以下は、私個人の考えです。所属組織の考えではなく、すべての責任は私だけに帰します。
話は質問から大きくそれますが、(JMPに限らず)一般的に、群間比較の統計的検定は、大別すると次のように分類できるのではないかと個人的に思っています。
(a) モデルベースの検定
t検定、ロジスティック単回帰、Cox比例ハザード単回帰
(b) デザインベースの検定
Wilcoxon検定、Cochran-Mantel-Heanzel検定,並べ替え検定、ログランク検定
なお、(a)と(b)の検定結果は、特に標本サイズが大きい場合、似たようなものになることがあります。たとえば、元データをスコアとした並べ替え検定(=元のデータ値をスコアとしたCMH検定)は、標本サイズが大きい場合、t検定と似た結果になります。
(a)の手法は、多変量に発展させやすいという利点があると思います。たとえば、t検定は重回帰に、ロジスティック単回帰はロジスティック重回帰などに発展しやすいです。
■研究疑問が「ある希少がんが、それ以外のがんと比べて、重複がんをなりやすくしているのか?」だとして、かつ、次のようなDAG(有向非巡回グラフ; Directed Acyclic Graph)が成立しているとします。
+---------- 年齢 -----------------------+
| |
+---> 希少がん -----> 重複がん <---+
年齢だけが、このDAGの方向だけの因果しかなく、かつ、希少がん→重複がんの交絡因子となっているとします(つまり、重複がん→希少がんの逆向きのパスはないものとし、さらに、(そのようなことがあるかどうかは私は全く知りませんが)たとえば経済的地位が高い人のほうが、がん検診を受けていて、そのため、希少がんおよび重複がんが発見されれる確率が高くなっている、など、年齢以外の交絡因子がないものとします)。
もし、そうであるならば、年齢→希少の関係をデータでみて、それが統計的に有意でなかったからとして、年齢を無視して希少がん→ 重複がんの関係を見るのは、あまりよろしくないのではなかと個人的に思います。
■話はさらにそれてしまいますが、どのような情報が有益なのかが私はまったく分かりませんが、年齢によって希少がんや重複がんの割合が異なっているのに、集団全体で集約してデータを眺めるのに個人的に少し抵抗があります。(二値的な意思決定に主眼を置いた統計的検定ではなく、)あくまで記述的な意味合いが強くなりますが、モザイク図を描いたり、ロジスティック回帰の説明変数にスプライン曲線を用いて、割合予測値を求めてみて、それをプロットしてみるなど、まずは、現状としてどうなっているかを年齢(およびその他の属性)で層別に見るのが第一歩ではないかと個人的には思います。いくつかのデータ加工の後、添付のようなグラフであれば、JMPでも作成することがあります(ご興味がある場合は、ご返信ください)。