下のグラフは火山が噴火しているように見えることから、ボルケーノプロット(Volcano Plot)と呼ばれています。

もともと遺伝子解析の分野で用いられているプロットで、多数の遺伝子発現量をグループ間(例:性別や遺伝子型など)で比較する際に、差の大きさと有意性を同時に可視化するために使用されます。
ただし、遺伝子解析に限らず、多数の変数の中から重要なものを効率的にスクリーニングする用途でも利用できます。例えば、工程データにおいて、改善前と改善後の多くのパラメータを比較し、影響の大きい工程を抽出するといった場面でも有効です。
ボルケーノプロットは、差の大きさと有意性という統計量を2次元上に表現したグラフですが、JMPではグラフ上から直接データを深掘りできるため、スクリーニング作業を効率化できます。
また JMP 19 では、ボルケーノプロットに関する新機能も追加されています。本記事では、それらの機能を含め、JMP を用いたボルケーノプロットによるデータ探索の流れをご紹介します。
ボルケーノプロットとJMPでの作成方法
JMPのサンプルデータ「Drosophila Aging.jmp」を用いてボルケーノプロットを作成する方法を示します。
このデータはショウジョウバエの実験結果であり、遺伝子型(ORE, SAM)、性別(FEMALE, MALE)、週齢(WK1, WK6)、チャネル(Cy3, Cy5)の組み合わせについて、100個の遺伝子発現量(底が2の対数で変換した値)が測定されたものです。
このデータを用いて、遺伝子型間、性別間、週齢間、チャネル間で100個の遺伝子発現量を比較し、差が大きい組み合わせを調べていきます(ここでは単変量解析を実施します)。
遺伝子のデータに詳しくない方でも、何らかのグループ間で、多くの量的な値を比較する例だとお考え下さい。
操作
[分析] > [スクリーニング] > [応答のスクリーニング] を選択し、[Y, 応答変数]に100個の遺伝子の列(連続尺度)を、[X]に「遺伝子型」「性別」「週齢」「チャネル」(名義尺度)を指定します。
さらに、ボルケーノプロットでは平均の差を比較するため、指定したY変数は共通のスケールであることが前提となるため、[Y変数は共通のスケール]にチェックを入れる必要があります。また、ここでは [ボルケーノプロットでFDRを使用]にチェックをいれ、検定の多重性を調整したp値(後述)を用いることにします。

「応答のスクリーニング」のレポートが表示されたら、レポート内の「FDR 対数価値 By 差」のタブをクリックすると、ボルケーノプロットが表示されます。

この例では、
- 遺伝子型間で100個の遺伝子発現量を比較
- 性別間で100個の遺伝子発現量を比較
- 週齢間で100個の遺伝子発現量を比較
- チャネル間で100個の遺伝子発現量を比較
しているので、合計400個の比較が行われており、グラフのプロット点はその400個分の結果に対応しています。
ボルケーノプロットの見方
ボルケーノプロットの横軸は差の大きさ、縦軸は差に対する有意性を示しています。差が大きいだけでは、ばらつきの影響で偶然生じた差の可能性があります。そのため、統計的な有意性も合わせて確認する必要があります。
横軸:平均の差
横軸はグループ間の平均値の差を示します。レポート下部の「平均の差」タブに表示される「差」の値がプロットに使用されています。
例えば1行目はlog2in_GC6372の発現量について、「MALE(オス)の平均値 - FEMALE(メス)の平均値」を計算した値になります。

そのため、オスのほうが平均的に発現量が多い場合は右側、メスのほうが多い場合は左側に表示されます。
縦軸:FDR対数価値
「ボルケーノプロットでFDRを使用」にチェックを入れているため、縦軸はFDR調整後の対数価値がプロットされています。この値は、次の流れ(①、②、➂)で算出されます。
①t検定のp値を算出
各遺伝子ごとに、グループ間で遺伝子発現量の差を比較するためt検定のp値を算出
②多重比較のためにFDRでp値を調整
多くの比較をしているため偶然に有意差がでることを抑える多重性の調整をしたp値を算出します。FDR(False Discovery Rate)とは偽陽性率のことを示し、有意と判断されたものの中に、実際には有意でないもの(偽陽性)が含まれる割合の期待値です。
➂FDR対数価値の算出
②で得られたFDRによる調整p値を -log10(FDR調整p値)と変換したものがFDR対数価値です。この変換により、小さいp値ほど上に表示されるため、可視化により有意性を分かりやすく確認できます。
「結果の表」にある「FDR 対数価値」が上記①、②、➂の手順で算出された値であり、この値が縦軸としてプロットされています。

ボルケーノプロットの右側に表示される凡例にあるように、赤色の点は平均の差が正でFDR p値が0.01未満を、青色の点は平均の差が負でFDR p値が0.01未満を示します。

これらの色付きの点を重点的に調べる価値があります。
JMPを用いたデータの深掘り
ボルケーノプロットを眺めると、右上に位置する5つの赤い点が気になります。これらの点は、平均の差が大きく、かつ有意性が高い比較です。
グラフ上でこれらの点を選択すると、「結果の表」や「平均の表」でも該当する行が選択され、詳細を確認できます。

さらに深掘りするには、選択した状態で、レポート「応答のスクリーニング」左にある赤い三角ボタンから [選択した項目の二変量関係]を選択します。すると[二変量の関係]プラットフォームで表示される「一元配置分析」のレポートが追加されます。
下図は、性別間で遺伝子「log2in_CG6372」を比較したときのレポートです。このグラフを見ることで、オスの発現量がメスに比べて非常に高いことが視覚的に確認できます。

さらに最新版の「JMP 19」では、ボルケーノプロットの右側に「Xの選択」、「Yの選択」という便利な機能が追加されました。ここで分析対象のX変数、Y変数を選択することにより、該当のプロット点や要約の表の該当行を強調表示できます。
図左下:「遺伝子型」をクリックした状態です。遺伝子型の比較に対するプロット点が強調表示されていますが、赤い点や青い点はほとんど選択されていません。
図右下:「性別」をクリックした状態です。性別の比較に対するプロット点が強調表示されていますが、多くの赤い点や青い点が選択されています。

これにより、性別間で差が大きい遺伝子が多く存在することが分かります。
また、「Xの選択」と「Yの選択」を同時に使用することも可能です。下図は、「Yの選択」で最初の5つの遺伝子を選択した後、Ctrlキーを押しながら「Xの選択」で「遺伝子型」を選択した例です。この場合、赤色の点が1つ選択されます。その点にマウスカーソルを近づけると、ホバーラベルにより、その点が「log2in_TMS1」を遺伝子型間で比較した結果であることが分かります。

まとめ
ボルケーノプロットは、多数の変数に対して差の大きさと有意性を同時に可視化し、視覚的に重要な要因を効率的に調べる手法です。JMPでは、ボルケーノプロット上から重要な要因を選択することにより、その要因を深く探索することができます。
最後に、ここまでのJMPの操作を動画でまとめたのでご参照ください(音声はありません)。
by 増川 直裕(JMP Japan)
Naohiro Masukawa - JMP User Community
You must be a registered user to add a comment. If you've already registered, sign in. Otherwise, register and sign in.