“如果有一個從0分到10分的階梯,頂層的10分代表你可能得到的最幸福的生活,底層的0分代表你可能得到的最差的生活。你覺得自己現在在哪一層呢?”
你可能要問:什麼是最幸福的生活?
可能是擁有財富的滿足,可能是成功帶來的喜悅,可能是付出後的回報,可能是收穫時的自豪,可能是淡泊時的高潔。幸福的生活似乎從來都沒有一個固定的答案。
但聯合國發佈的《全球幸福指數報告》告訴我們,幸福其實也是可以量化的。這份報告根據國民幸福感不同觀點的資料進行分析,綜合評定幸福指數,並以此進行排名,其中主要的因素包括人均國內生產總值(GDP)、健康預期壽命、生活水準、國民內心幸福感、人生抉擇自由、社會清廉程度以及慷慨程度等,總計33個分項。
今天,我們就根據蓋洛普全球幸福報告專題(https://worldhappiness.report/ed/2020) 網站上的公開資料,結合JMP軟體來看看哪些國家在全球幸福報告上排名比較高,以及哪些因素對幸福指數的影響比較大。
01 從資料導入和整理開始
首先,調取蓋洛普全球幸福報告專題頁面(https://worldhappiness.report/ed/2020/)的原始資料,稍加整理將2015-2020年的Excel 檔保存到一個資料夾下。
其次,將所有Excel檔一次導入JMP並整合成一張資料表,除了完全保留原資料表中的資料行,JMP還會自動產生檔案名行,方便查看資料來源。
( JMP操作:檔->導入多個檔)
提取指定行的部分所需內容,快速生成年份資訊行。
( JMP操作:行->重新編碼)
整理完資料,我們就可以借助JMP來自由地探索資料了。
02 資料的視覺化探索性分析
JMP圖形生成器是全面探索資料的好幫手,它可以讓你清晰地查看你所研究資料的基本分佈、對比、趨勢走向等資訊。
2020年被調查的各個區域的平均幸福感得分
通過JMP圖形生成器簡單畫圖後,我們可以看到下圖的分佈報告。
報告將全球國家和區域分成10個大的區域,其中,撒哈拉以南非洲的國家和地區最多,達到39個,同時也是平均幸福感最低的區域。北美和澳洲區是平均幸福感得分最高的區域,不過只有4個國家和地區。
( JMP操作:畫圖->圖形生成器->並排橫條圖,浮動橫條圖)
2020年排名前10的國家在之前幾年的表現
從報告中可以看到,芬蘭連續3年排名第一,丹麥連續2年排名第二,瑞士在連續幾年排名下滑的情況下,今年升到第三名。盧森堡從2016年開始,連續幾年排名上升,首次進入前10。
( JMP操作:畫圖->圖形生成器->線圖)
2020年全球幸福指數地圖
一圖勝千言!2020年全球幸福指數地圖整體來看,北歐國家的幸福指數最高,如芬蘭、丹麥、冰島、挪威;非洲尤其是中非和東非的國家幸福指數較低,亞洲的阿富汗和印度幸福指數也比較低。
( JMP操作:畫圖->圖形生成器->地圖功能,及資料篩選)
幸福感得分到底和哪些指標關係更大呢?難道只是財富GDP嗎?
從下面JMP生成的多元圖可以清晰地看到,與幸福感得分的相關性依次為:GDP > 健康預期壽命 > 社會幫助 > 人生自由選擇 > 社會清廉程度 > 慷慨程度,因此我們可以理解為財富和健康在人們看來都是非常重要的幸福指標。
( JMP操作:分析->多元方法->多元)
以上是一些探索性資料分析的結果,下面我們來進一步嘗試用上面提到的主要參數與幸福感得分建立量化的統計模型。
03 資料預測建模
線性模型之嘗試
應用JMP的擬合模型平臺,將幸福感得分作為回應, 其他6行資訊作為因素嘗試生成線性模型,來查看模型的預測值和真實值。
通過生成的散點圖以及R平方(0.76)來看,擬合效果似乎很不錯。通過效應匯總表可知,模型變數重要性依次為:GDP,人生自由選擇,社會幫助,健康預期壽命,社會清廉程度和慷慨程度。
看到這裡你可能會產生疑問:之前做相關性分析的時候,明明“健康預期壽命”和“社會幫助”兩項比“人生自由選擇”與幸福感得分的相關性更強,為什麼到預測模型這裡結果卻變了呢?這是因為預測模型這裡其實存在潛在因素共線性的問題,這對因素重要性的判斷及預測誤差都可能有影響。
為了更客觀地查看影響因數,優化模型,我們嘗試利用主成分分析來進一步探索。這裡主成分分析的意義在於對原有重複的變數刪去多餘,建立盡可能少的新變數,使得這些新變數不但兩兩不相關,而且在反映資訊方面盡可能保持原有的資訊。
線性模型之優化
從下圖的分析結果可以確認“GDP”,“健康預期壽命”和“社會幫助”確實與幸福感存在強相關,新生成的4個主成分資料行能解釋之前6個因素90%以上的資訊,從而在實現資料降維的同時,也減少共線性對線性模型的影響。
重新以幸福感得分作為回應,新生成的4個主成分資料行作為因素生成線性模型,同時對幸福度得分7.8時做預測。
從下圖可以看到,新模型的95%置信區間為[7.62454,7.97546]要小於原模型預測值的置信區間[7.61752,7.9834],當然因為回應的區間是[2.51-7.81]的原因,所以似乎改善效果不明顯,可是如果回應的區間是千級、萬級呢?
資料探勘方法之嘗試
JMP提供了諸如神經網路、決策樹、隨機森林、提升樹和支援向量機等多種資料探勘的方法(部分功能僅在JMP Pro中有),並且可以輕鬆實現模型之間的比較。
僅以最簡單的單層3節點神經網路預測模型為例,驗證集的預測R平方就能達到0.77,稍微增加節點數到10,並結合提升功能,能使R平方提升到0.83,這意味著該模型能對幸福度得分做出更好的預測。
通過JMP的視覺化分析、資料探索、建模與資料探勘後,我們的分析報告也就新鮮出爐了。
那麼,如何快速分享分析結果呢?這也不是什麼難題。
04 資料分享
你可以把視覺化的圖形報告可以發佈到JMP Public/ JMP Live 輕鬆實現結果公開共用或者特定人群內部分享。全球幸福指數地圖分享連結:
https://public.jmp.com/packages/World-Happiness-Report/js-p/PGGdhKqZWQy6Btpf05Nn8
Data sets & Analysis with JMP.zip
You must be a registered user to add a comment. If you've already registered, sign in. Otherwise, register and sign in.