cancel
Showing results for 
Show  only  | Search instead for 
Did you mean: 
Choose Language Hide Translation Bar
横長データの代表である6種のMicroarrayデータによる癌の遺伝子診断
横長データの代表である6種のMicroarrayデータによる癌の遺伝子診断

成蹊大学経済学部 名誉教授 新村 秀一

 

ハーバード大学医学部のGolub教授らによれば、「横長データの代表であるMicroarrayデータによる癌の遺伝子診断」は30年以上行われていて、明確な結論が出ていない(判別分析の問題5)。多くの統計家は、統計的に対応できない問題点を指摘している。
1. Small n and large p problemすなわちp>>nの典型的な横長データである。例えば、癌と正常患者100名を1万個前後で判別や回帰を行う場合、変数選択などNP-hardな問題である。
2. 判別に有効な癌遺伝子が、残りの高次元の雑音に隠されていて、これをうまく分離できない。
などである。
筆者は1971年に大学卒業後、大阪府立成人病センターで4年間心電図の自動診断システムの論理をFisherのLDFで開発したが医師の枝分かれ論理に叶わなかった。この経験が、医学診断に統計的判別理論は不適切と考え、数理計画法によるMinimum Number of Misclassification (MNM)基準による最適線形判別関数と「小標本のための100重交差検証法(手法1)」と「Matryoshka Feature Selection Method (手法2)」を開発し、判別分析の5つの問題を解決した。30年かかって解決できない問題5は、僅か54日で手法2で解決した。Microarrayデータは、データ件数のn(100)件よりはるかに少ない遺伝子の組で正常と異常が完全に判別でき、このような遺伝子の組(Small Matryoshka, SM)の数十個の排他的な和集合と、残りの高次元の雑音空間に完全に分けることができた。これらはSpringerより出版した。そして得られた全てのSMをJMPの一元配置の分散分析、クラスター分析、PCA、統計的判別関数で分析して、癌の悪性度指標の作成に世界で初めて成功した内容を報告する。これらの結果を、AmazonのKindle版(From Cancer Gene Analysis to Cancer Gene Diagnosis, 1200円)にまとめて出版した。