cancel
Showing results for 
Show  only  | Search instead for 
Did you mean: 
The Discovery Summit 2025 Call for Content is open! Submit an abstract today to present at our premier analytics conference.
See how to use to use Text Explorer to glean valuable information from text data at April 25 webinar.
應用案例:基於JMP資料探勘找出幽門螺旋桿菌感染患者的影響因子

幽門螺旋桿菌(以下簡稱Hp)感染已經是個國際問題,中國Hp感染率約為50%~90%,高於發達國家平均水平(50%~70%)。幽門螺旋桿菌感染已經成為我國一個公共衛生健康危機。目前中國國內對Hp感染途徑和危險行為還未有一致意見,該如何有效找出其疾病的影響因子,亦是研究上值得討論的話題。

 

現今AI人工智慧技術及大數據分析可以在研究和輔助分析方面發揮重要作用。本次研究為廣東省中山市中醫院主管藥師袁一鳴,分享他如何利用數據探勘探究相對的特徵數據和結果之間的線性關係,充分應用機器學習的視覺化和可解釋性,旨在瞭解Hp在中國的感染方式和危險行為,建立起使用便捷且經濟的預測感染模型,為無症狀感染者提供參考。

 

本次研究選擇內窺鏡及體檢中心接受碳13、碳14呼氣試驗或胃鏡下取粘膜試驗檢查幽門螺旋桿菌檢測的健康體檢人群為研究對象。

 

研究者根據專家和文獻資料自行設計與幽門螺旋桿菌感染相關的二分類及多分類組成的非量表電子調查表。問卷表分為三個維度63個變量:①患者基本信息表,②臨床表徵表和③生活和飲食習慣表。

 

研究者採用JMP Pro 對數據進行統計分析。首先對數據進行單因素分析,進而進行多元邏輯回歸分析,建立預測模型,最終基於模型效應項的結果繪製森林圖。

 

主要分析思路及步驟

第一步:針對現有資料進行資料清洗

利用JMP可以對批量變量進行分類管理。由於收集的變量是定性變量,在JMP Pro 對所有變量進行標準化列特徵操作,將所有變量統一轉化為字符型名字變量。

Michelle_Wu_13-1682319201572.png

 

Michelle_Wu_14-1682319221226.png

 

第二步:生成驗證列

利用JMP的驗證功能可以對數據進行訓練集和驗證集分類。按7.5:2.5隨機抽取為訓練組和驗證組,如下圖:

Michelle_Wu_15-1682319265965.png

 

第三步:單因素分析

通過列聯分析和 Distribution平台可以發現,人群的居住樓層、胃痛、反酸、胃脹、沒有食欲、口氣口臭、口苦、胃鳴、饑餓感、貧血、午餐在家煮食、吸煙、外出使用公筷、使用公筷的習慣、家人朋友是否有感染有顯著性外,其他變量都沒有統計學意義。

 

Michelle_Wu_16-1682319298783.png

Michelle_Wu_17-1682319350708.png

 

第四步:多因素分析

在JMP中依次點擊「分析」菜單→「擬合模型(Fit Model)」(圖2),在彈出的對話框中將是否感染幽門桿菌導入「Y」,將擬進行多因素分析的自變量導入「構造模型效應」框中。以生成驗證列為依據,進行驗證。

 

Michelle_Wu_18-1682319358370.png

 

從下圖所示的效應似然比檢驗如下圖中,可以看到,口氣、口臭、是否使用公筷、午餐在家煮、使用公筷的習慣貧血、家住多少樓概率>卡方,具有統計學意義。

 

Michelle_Wu_19-1682319365770.png

 

 

從效應匯總結果,看出自變量的貢獻大小

從效應匯總結果(圖),該部分反映的是各自變量的貢獻值大小,主要通過LogWorth值來反映,LogWorth值等於 -log10P。

 

從下圖可以看出,15個自變量中貢獻最大的是口氣、口臭和使用公筷習慣,而噁心、胃痛的影響較小。該結果可以直觀反映出自變量的貢獻大小,也可以作為後續進一步進行變量篩選的參考依據。從整體模型檢驗中,概率>卡方的值小於0.001,證明構建模型有統計學意義。這裡對貢獻值偏低的變量進行刪減。

 

Michelle_Wu_20-1682319390749.png

刪減前

 

Michelle_Wu_21-1682319402288.png

刪減後

 

參數估計值

通過參數估計(圖),可以得到相應的預測模式的公式,及每個變量對於最終觀測的影響。

Michelle_Wu_22-1682319411917.png

 

模型驗證

訓練組和驗證組 ROC 曲線下面積分別為 0.7334 ( 95% CI 0.709 ~ 0.784)、0.7153( 95% CI 0.6729 ~ 0.7577)。經分析,該模型處於良好水平。

Michelle_Wu_23-1682319422771.png

 

根據森林圖,得出哪些因素為保護因素,哪些是危險因素

保存多元邏輯回歸的結果及OR值的表格,並基於該系列OR數據在圖形生成器中製作森林圖。

 

Michelle_Wu_24-1682319442345.png

 

Michelle_Wu_25-1682319451202.png

 

透過單因素到多因素回歸分析,可以看出胃脹口氣、口臭、午餐(在家自己煮)、在家與外出是否有使用公筷習慣、同居家人是否有感染、家住多少層樓是幽門螺旋桿菌感染主要因素。透過森林圖,可以看出,哪些因素為保護因素,哪些是危險因素。

 

綜上所述,通過分析幽門螺旋桿菌的感染特徵及危險行為因素,為探索幽門螺桿菌感染途徑提供方向,依據構建的模型制定預治護理策略。

 

原文索引:數據挖掘構建幽門螺桿菌感染患者的預測模型和防治策略[J].胃腸病學和肝病學雜誌,2022,31(09):992-998.

 

如果對本文案例研究的思路和方法感興趣或者想要與作者進一步深入交流探討的話,歡迎報名參加4月27日14:00-15:30 JMP 線上研討會:

按此報名參加

 

屆時,袁醫生將親臨JMP直播間,與各位詳細分享此次案例研究寶貴的分析思路與經驗心得。精彩內容,不容錯過!現在免費試用JMP 17 30天

 

推薦閱讀:

 

Last Modified: Apr 24, 2023 3:15 AM