cancel
Showing results for 
Show  only  | Search instead for 
Did you mean: 
Choose Language Hide Translation Bar
基於小樣本數據的實驗設計,運用機器學習進行建模分析

熟悉JMP的JMPer都知道,JMP一直致力於實驗設計的開發和應用。回顧實驗設計的歷史,從上個世紀二十年代(1920),Fisher 首次提出實驗設計的統計理念,到今天,實驗設計已經發展多個統計方法,如響應曲面、田口設計、混料設計、最優設計、均勻設計、超飽和實驗設計等。JMP首席研發專家Bradley Jones也因為創新了確定性篩選設計而兩度榮膺美國品質協會面向個人頒發的布倫博大獎。

 

歷經30多年的發展,JMP實驗設計平台下已經囊括了以上所提及的所有實驗設計方法,同時,還提供實驗設計評估、設計方案比較以及樣本功效評估等實驗設計輔助功能,幫助更多使用實驗設計的研究工作者,在多種實驗設計方法學中選擇最合適及最有效的方案。

 

Michelle_Wu_0-1658803106340.png

JMP實驗設計平台一覽

 

對比現今如火如荼的大數據,實驗設計適用於小樣本的數據。在小樣本的情況下,如何去更好地選擇最優模型,既不過擬合,又能有效預測?

 

近幾年也有不少方法被應用,比如常見的AICc(赤池訊息量準則), 貝葉斯推斷(Bayesian Inference)等。這次我們要介紹的是另外一種全新的方法,即:JMP Pro 16推出的自動驗證Fractionally Weighted Bootstrap (FWB)技術。

 

Michelle_Wu_1-1658803106373.png

 

JMP Pro 引入了自動驗證和小樣本數據的模型構建,作為兩種全新的實踐有效的技術,無需新實驗就能對 DOE 數據進行預測建模。此項技術基於原始訓練數據和Bootstrapping隨機抽樣的概念形成驗證集。

在介紹JMP的自動驗證FWB新技術前,我們先來簡單回顧一下大數據機器學習中交叉驗證的運用思維。

 

首先將數據分為訓練集和驗證集,甚至測試集。在模型複雜度確定過程中,選擇在SSE(即組間差異平方和)在驗證集中達到最小時的模型,作為最佳模型,如圖示。

 

Michelle_Wu_3-1658803106378.png

模型交叉驗證

 

針對實驗設計數據或者小樣本數據,是否可以基於有限的樣本量,構造出兩個不相關SSE,將其中一個作為驗證集呢?在這樣的設想下,JMP Pro 16推出的自動驗證FWB技術針對小樣本數據。

 

使用Bootstrap的技術,對每一個實驗設計的樣本構造多組(可自定義)成對,具有相同分佈且負相關的隨機係數:

Michelle_Wu_4-1658803106379.png

 

將生成的多組隨機係數應用於下列計算公式中:

Michelle_Wu_6-1658803106380.png

 

經過推導計算,用此種方法得到:

Michelle_Wu_7-1658803106380.png

 

兩者趨近不相關,即能達到交叉驗證類似的效果。使用這樣的技術,基於多組成對隨機係數,JMP 可以建立多組不同複雜度的模型,同時記錄模型變量參數估計值的非零比例。

 

不過,新的問題又產生了。

生成了多組成對隨機係數,比如2500組成對隨機係數,就將建立2500個模型,最終如何確認哪些模型變量為顯著變量?如何去界定非零比例限值,以幫助來確定最後模型?

 

在此,JMP引入了和預測對象獨立不相關的、且隨機分佈的空變量。建立模型時,將該空變量同時引入建模。在最終建立的多組模型中,如果自變量參數估計值非零比例高於空變量,則認為該自變量需要納入模型中。上述的文字敘述可能無法完整表達,我們使用一個真實案例簡單闡述。

 

案例分享

該案例的目標是減少在蛋白質純化過程中聚合問題可以調整的實驗及製程參數,包含如蛋白質含量,甲醛等6個主因子。在這個實際案例中,應用了JMP「實驗設計」平台下的確定性篩選設計,含6個主因子,以及交互因子和高階項,一共27個因子。

 

在收集實驗結果後,首先使用自動驗證功能,對每一個樣本,隨機生成第一組成對係數和空變量。然後用JMP的「擬合模型」功能,引入空變量同時建模。在此基礎上,再次生成250組成對隨機係數,建立模型。

 

最終根據生成的非零比例排序,僅將非零比例高於空變量的變量(蛋白質濃度,溫度,甲醛濃度,甲醛濃度和蛋白質濃度的交互作用項,p<0.05,如下圖示)作為顯著模型項,納入最終模型範圍。

 

Michelle_Wu_8-1658803106394.png

 

接下來我們來詳細看看在JMP中是如何實現模型建立,同時使用FWB自動驗證計算來找到顯著模型因子。

 

 

在這個真實案例中,我們通過模型結果,發現僅有3個主因子影響且正影響最後蛋白質聚合程度。而在眾多的交互因子及高階項中,僅有一個,即甲醛和蛋白質濃度的交互作用項對最終的蛋白質聚合程度有顯著影響。這一結果,大大縮小了工藝需要優化的參數範圍,明確了工藝調整過程中的重要參數。優化所有參數後,將蛋白質聚合度由最初的平均14.8%,優化到最佳可達2.5%,大大提高了該蛋白質產品的安全和可靠度。

 

該案例中,我們同時也發現,儘管實驗設計之初考慮到的因子有27個之多,但是通過FWB技術篩選最終顯著影響工藝產品的僅有4個因素。這也驗證了在實驗設計中,我們經常說的效應稀疏原理。

 

Free download.png

 

原文:https://mp.weixin.qq.com/s/BqiTKQcb9wJmFJweUqRrOA

Last Modified: Jul 25, 2022 11:03 PM