cancel
Showing results for 
Show  only  | Search instead for 
Did you mean: 
Choose Language Hide Translation Bar
為什麼Taylor Swift和周杰倫的音樂受歡迎?利用結構方程模型(SEM)探索背後原因

Taylor Swift,從鄉村音樂甜心到流行音樂巨星,近年來,她的專輯《Folklore》和《Evermore》在全球範圍內獲得巨大成功,連續獲得格萊美獎的肯定。她的The Eras Tour世界巡迴演唱會門票銷售異常火爆,演唱會大電影更是以僅僅1500萬美元的成本撬動了2.6億美元票房,成為了影史最賣座的演唱會電影,這一切都讓她成為了當代當之無愧的音樂巨星。至於周杰倫( Jay Chou),有“亞洲流行音樂天王”的美譽,他在2000年以一張融合了傳統中文音樂元素和現代流行音樂風格的專輯《Jay》出道以來,將R&B、搖滾、電子音樂、古典音樂和中國傳統音樂元素融合在一起,創建了獨特的“Jay 式”音樂風格。這種風格不僅吸引了大批忠實聽眾,也對華語流行音樂產生了深遠的影響。

 

那麼是什麼使得Taylor Swift和周杰倫 ( Jay Chou)的音樂能夠跨越語言、國家、時代,持續地吸引聽眾呢?讓我們運用JMP Pro的結構方程模型(Structural Equation Modelling, SEM)這一強大的統計工具來試著解析這個問題。結構方程模型(SEM)是社會科學中常用的複雜統計方法,它允許研究者評估多個變量之間的關係,並測試它們之間的潛在因果聯繫,尤其是在音樂產業這樣一個多因素交織的領域,這種研究方法非常適合。如(圖一)所示。

JMP_Taiwan_0-1710148533354.png

(圖一)

 

什麼是結構方程模型(SEM)?

通常我們在分析兩個變量之間的關聯時,會使用相關性分析,但是相關性分析只能顯示變量之間存在相互關係,無法分辨哪個是因,哪個是果。在傳統的迴歸模型中,只能研究變量X對結果Y的直接效應,無法分析間接效應問題。在有間接效應的因果關係中,中介變量既是自變量,又是因變量,有時候還存在一些變量互為因果的問題。這時,迴歸模型就無能為力了。

 

結構方程模型(SEM)還可以透過路徑圖來更加直觀地描述變量之間的關係。例如,影響糖果口味的因素,可能有糖、顏色和大小,並且它們之間也互相影響。相對於複雜公式而言,路徑圖能夠幫助我們一眼獲取變量之間相互關係的資訊。如(圖二)所示。

2.png

(圖二)

 

在結構方程模型(SEM)中,變量有兩種基本的形態:測量變量(measured variable)與潛在變量(latent variable)。研究者觀測得到的測量變量是真正被分析與計算的變量;而潛在變量則是由測量變量所推估出來的變量。如(圖二)所示。

 

讓我們用一個簡單的例子來說明這一點:想像你是一所學校的校長,你想知道什麼因素會影響學生的考試成績。你可能會考慮到許多不同的因素,比如學生的學習習慣、家庭背景、上課的注意力、課外閱讀量等等。這些都是無法直接量化的抽象概念,我們稱之為“潛在變量”。

 

透過使用SEM,你可以構建一個模型,這個模型會包括所有你認為可能影響學生成績的潛在變量。接著,你可以透過一系列的問題(比如問卷調查)來“測量”這些潛在變量。比如,可以透過問學生每天花多少時間閱讀來間接測量“課外閱讀量”。一旦收集了數據,SEM就可以進入場了。

 

結構方程模型(SEM)的主要特色

SEM模型可以幫助分析這些潛在變量如何影響學生的成績,哪些因素是最重要的,以及這些因素之間是否有相互作用。例如,你可能會發現,雖然上課注意力對成績有直接影響,但課外閱讀量對注意力也有影響,間接地影響了成績。SEM的魔力在於它不僅僅告訴我們哪些因素是重要的,而且還能探索這些因素是如何相互關聯的。

 

SEM的本質是分析兩個變量的協方差。對於一系列變量,可以得到一個【observed方差-協方差矩陣】。在矩陣中,對角線為變量的方差,其餘部分為變量的協方差。透過最大似然法(Maximum-Likelihood,ML) 分析結構方程的路徑係數得到【模型估計的方差-協方差矩陣】,評估【模型方差-協方差矩陣】與【observed方差-協方差矩陣】的匹配情況,就可以得到擬合優度。SEM考慮到了數據的不完美狀況,比如它可以允許測量誤差存在,允許缺失值的存在。如(圖三)所示。

JMP_Taiwan_2-1710148533542.png

(圖三)

 

以Taylor Swift 音樂數據為例

在JMP Pro中,打開Taylor Swift的資料集*(文末註)如下圖(四)所示,共有530行數據,每行代表一首歌曲的相關信息。在進行SEM分析之前,首先對數據進行標準化預處理,如下圖所示的loudness*0.1, tempo*0.1, popularity*0.1。因為不同變量的數值不同,因此導致不同變量之間的協方差不在同一水平,所以在比較變量間的協方差之前,需要對變量進行標準化。

4.png

(圖四)

 

在JMP Pro中,透過選擇分析 > 多元方法 > 結構化方程模型來啟動“結構化方程模型”平台,如下圖(五)所示。

JMP_Taiwan_4-1710148533973.png

(圖五)

 

啟動結構方程模型平台後,在左側選擇列中選中所有想要分析的變量,納入模型變量,如下圖(六)所示,即可進入模型平台。

JMP_Taiwan_5-1710148534015.png

(圖六)

 

結構方程模型(SEM)可以透過路徑圖的視覺表示方法來描述模型中各變量之間的關係。如下圖(七)所示,在JMP Pro中,可以透過鼠標點選和單向/雙向箭頭來構建模型。潛在變量通常用圓圈或橢圓表示,觀測變量通常用矩形或方框表示。用帶箭頭的直線指示變量之間的因果關係,箭頭從原因指向結果。從變量自身指向自身的箭頭表示該變量的方差。

7.png

(圖七)

 

7-2.gif

 

在做SEM之前,我們首先要根據研究問題的實際情況建立起始模型,這部分需要針對應用場景的個性化的理解,常常需要對模型進行不斷調整,直到獲得滿意的結果。因此,在分析Taylor Swift的音樂時,為了體現人的經驗和認識對於SEM模型的重要性,我們要求ChatGPT提供一張它理解的與音樂受歡迎程度相關的SEM路徑圖,ChatGPT的反饋如下圖(八)。

JMP_Taiwan_8-1710148535830.png

(圖八)

 

我們依照ChatGPT給出的對音樂受歡迎程度的理解,在JMP Pro中構建SEM的路徑圖並運行模型,得到結果如下。變量之間紅色的數字表明兩個變量之間的正相關關係,例如loudness增強energy隨之會增強;而藍色數字則表明負相關關係。R²值表示可以被模型解釋的變異比例。實線箭頭表示顯著的效應,與之相對的虛線是不顯著的效應。圖中的“Days since released”並沒有被ChatGPT納入模型考慮。在這個結果中,“energy”R²值為0.556,意味著模型中包括的變量能解釋56.6%的“energy”變異。

 

“valence”和“popularity”的R²值較低,分別為0.020和0.044,這表明這些潛在變量的變異被模型中的變量解釋的比例不高。由於ChatGPT並不具備人類一般對於音樂的深層感受和理解,所以給出的初始模型擬合效果較差,這也很好地體現了SEM中對要評估內容的理解的重要性。如圖(九)所示。

9.png

(圖九)

 

除了ChatGPT提供的模型以外,筆者作為Taylor Swift粉絲,也對流行音樂有自己的認識和思考:首先,發行日期(Days since released)肯定對於Popularity有影響, 早期的冷門歌曲的認知範圍相對低一些。此外,一首歌曲的旋律是其最直接的吸引力之一,人聲,器樂,節奏的使用能增加歌曲的情感深度和複雜性。歌詞的質量也非常重要,好的歌詞能夠引起聽眾的共鳴。Liveness也是十分重要的因素,現場的氛圍感、歌手的個人魅力、舞臺表現和聲音特色都會影響歌曲的受歡迎程度。另外還有一些直觀體驗,比如音量大會直接帶來更強的力量感等。

 

綜合這些思考,筆者根據自己對音樂的理解在JMP Pro中繪製了SEM路徑圖(模型名稱為Human Expert),模型擬合結果如下圖。可以看到,此時模型中Popularity的可解釋性明顯提高。如圖(十)所示。

JMP_Taiwan_10-1710148535976.png

(圖十)

 

後者模型對於前者模型的改進,更多源於納入了筆者自身對於流行音樂的理解和思考,這恰恰映射的是現實世界中,數據分析者並不缺少各類分析工具,而是缺少對於問題本身(業務本身)本質的思考,導致無法獲得有效洞察。

 

JMP Pro還提供了模型比較的功能。前兩個模型固定為【不受限(飽和)】與【獨立】。【不受限(飽和)】即為把所有的模型參數都納入,自由度為0。它是一個理想模型,但是理想模型往往會導致模型過擬合。【獨立】是一個極度簡化的基準模型,假定所有的觀察變量之間都是相互獨立的。模型擬合指標是用來評估結構方程模型(SEM)與觀測數據契合程度的統計量。CFI(Comparative Fit Index,比較擬合指數)和RMSEA(Root Mean Square Error of Approximation,均方根誤差近似值)是兩個常用的模型擬合指標。CFI是一個範圍在0到1之間的數字,用來衡量模型相對於一個基準模型的擬合度。【不受限(飽和】模型的CFI為1,【獨立】模型CFI為0。RMSEA值反映了模型與數據之間的近似誤差。RMSEA的值越小,表示模型與觀測數據之間的差異越小,擬合度越好。然而,這些指標只是工具,應該結合理論和其他實證證據一起考慮模型的適用性。如圖(十一)。

11.png

圖(十一)

 

我們將同樣的SEM建模過程應用於周杰倫 ( Jay Chou)的Spotify資料集,在這個樣本中,我們演示一下如何將【潛在變量】納入SEM模型。在本例中,我們加入一個潛在變量【Melody】,並認為它可以透過【tempo】,【instrumentalness】和【acousticness】體現。

11-2.gif

 

模型全部構建完成後,點擊運行模型,結果如下。

我們可以發現,在這個模型中,顯著項(實線)與之前的模型有明顯的不同,這也側面說明Taylor Swift與周杰倫 ( Jay Chou)的音樂風格和受歡迎的原因有所差異。如圖(十二)、圖(十三)所示。

12.png

(圖十二)

 

13.png

圖(十三)

 

結構方程模型(SEM)的局限與誤區

就像任何科學模型一樣,結構方程模型也有其局限性和誤區,主要有二。

首先,雖然SEM提供了變量之間關係的資訊,但我們不能僅僅因為有統計聯繫就斷定其中一個變量是另一個的原因。

其次,模型的品質高度依賴於數據的品質和所選模型的合適性。一個常見的誤區是過度解讀R²值——儘管這個值可以告訴我們模型解釋了多少變量的變異,但它並不能證明模型中的因果關係。例如,雖然我們可以從分析結果看到能量和流行度之間的強關聯,但這並不意味著提高能量就一定會增加流行度,可能還有其他未被模型涵蓋到的其他因素在發揮作用。

 

JMP Pro的結構方程模型不僅可以幫助我們更好地理解Taylor Swift和周杰倫 ( Jay Chou)的音樂為何能夠觸動全球聽眾的心,還可以觸類旁通到如何運用這一模型來探索其他領域的複雜現象。

 

*(註):本文採用的資料集來自音樂播放網站Spotify的公開數據。Spotify透過分析一系列音樂特徵來對歌曲進行分類,以量化歌曲的不同方面,每個特徵即為數據表中的一列。以下是這些特徵的含義介紹:

 

  • 聲學度(Acousticness):這個指標用來判斷一首曲子是否是原聲的,數值越大表示該曲目是原聲的可能性越大。
  • 可跳舞性(Danceability):這一特徵描述了一首歌適合跳舞的程度,這是透過結合節奏、節奏的穩定性、節拍的強度以及整體的規律性來綜合評估的。數值越大表示這首歌越適合跳舞。
  • 能量(Energy):能量是一種感知指標,用來衡量一首歌的強度和活力。一首歌如果感覺快速、響亮和有噪音,它的能量值通常較高。數值越高,表明曲目的能量越強。
  • 器樂度(Instrumentalness):這個指標預測一首歌是否不含人聲部分。在這裡,“哦”和“啊”的聲音被認為是樂器聲部。如果這個數值越大,就越可能表明這首歌不含有人聲。
  • 現場感(Liveness):這個特徵用來檢測錄音中是否有觀眾的存在。數值越高,表明這首歌是現場演出的可能性越大。數值超過0.8則強烈表明該曲目是現場錄音。
  • 響度(Loudness):響度表示一首歌的整體音量大小,用分貝(dB)來衡量。響度值是對整首歌曲的平均,可以用來比較不同曲目之間的相對響度。
  • 語言性(Speechiness):這個指標檢測一首歌中是否含有口語。如果錄音主要是類似於說話的內容(例如脫口秀、有聲讀物、詩歌),該屬性值就會接近1.0。數值超過0.66的曲目可能完全由口語組成,而數值在0.33到0.66之間的可能包含音樂和語言。
  • 情感(Valence):這個指標描述了一首歌傳達的積極情緒。情感值高的曲目聽起來更加積極(例如快樂、愉悅、歡欣),而情感值低的曲目則聽起來更加消極(例如悲傷、沮喪、憤怒)。
  • 節奏(Tempo):節奏是指一首歌的整體估計速度,以每分鐘節拍數(BPM)來衡量。在音樂術語中,節奏直接來源於平均拍子的持續時間,是指一件音樂作品的速度或節奏。

 

Last Modified: Mar 12, 2024 9:00 AM