Text Mining in JMP of the lyrics of QUEEN's songs.
Japanese Title: バンド「クイーン (Queen)」の楽曲をテキストマイニングしてみると
Written by: Naohiro Masukawa, System Engineer at JMP Japan
Writer's name in Japanese : JMPシステムエンジニア 増川 直裕
昨年末に公開された映画「ボヘミアン ラプソディー」はご覧になりましたでしょうか。公開直後に映画の良さが話題となって大ヒットし、クイーンが活躍していた時期に聞いていた世代から、クイーン自体をあまり知らない若い方まで幅広い世代が鑑賞されているようです。
私も鑑賞しましたが、ストーリーもさることながら、今聴いても色褪せない楽曲に心を打たれました。その後、職業柄なのか”クイーンの詩をもっと知りたいという思いから、突如(?)テキストマイニングをおこなってみました。
分析する以前の私はクイーンの代表的な曲しか知りませんでしたが、”Bicycle” という単語を連呼したり、楽曲「ボヘミアン ラプソディー」のように ”Killed a man” (男性を殺した)という歌詞や、オペラ部分の特徴的な歌詞があることから、何か面白い結果が得られるのかなあと考えていました。
テキストマイニングした中から、次の3つの結果をご紹介します。
- どんな単語が多く使われている?
- 楽曲を、使用している単語で分類してみると?
- 歌詞に含まれる単語によって作詞者を判別できる?
分析対象は1973年から1991年のアルバムに収録された楽曲を対象とし、歌詞がないインストルメンタルは除きました。1991年までとしたのは、ボーカルのフレディ・マーキュリーが存命中にリリースされた楽曲を対象としたかったからです。
■どんな単語が多く使われている?
分析対象とした楽曲について、どんな単語が多く使われているのか。その答えをワードクラウドで示しています。ワードクラウドとはテキストマイニングでよく用いられる可視化手法で、単語の出現頻度が高いほど大きな文字で表示します。
ワードクラウド
https://public.jmp.com/packages/What-kind-of-words-are-used-a-lot/js-p/5c3d904633868300a4314b06-1
ワードクラウドの結果について、次の3点にご注意ください。
- 語幹抽出をし、度数が10以上の単語を表示対象としています。
語幹抽出とは単語の語尾の変化を取り除き、語幹が共通する単語をまとめる方法です。
語幹抽出している単語には、単語の最後に “・” のマークを付けています。
例えばワードクラウドの中に “know・” と表示されいますが、これは、”know”、”knowing”、”knows” の3つの単語が含まれています。
- 冠詞、助動詞、代名詞、be動詞、前置詞と思われる単語は、分析から除外しています。
- 単語には、青(平均的にリリース年が初期)~赤(平均的にリリース年が後期)でグラデーションをつけています。つまり青い色の単語ほど初期の楽曲に多く使われた単語であり、赤い色の単語ほど、後期(1991年を最後として)の楽曲に多く使われた単語であることを示します。
■楽曲を、使用している単語で分類してみると?
対象となる楽曲を、似た単語が使われている楽曲に分類(グループ化)してみます。そのために、まず、文書単語行列という概念をご紹介します。
文書単語行列とは各単語が出現したか、出現しなかったかを行列形式で表したものです。行は楽曲、列は各単語になりますが、ある単語の列に対し、その単語が出現している楽曲(行)には1の値を、出現していない楽曲には0の値を割り当てます。このように1または0の値をとる文書単語行列をつくるという方法がシンプルではありますが、ここでは、”TD IDF”という単語の重要度を加味して重みづけをした文書単語行列を作成します。
詳しい定義は省略しますが、多くの楽曲に出現する単語の重要度を下げ、一部の楽曲のみに現れる単語の重要度を上げる重み付けをします。
例として語幹抽出した、”life・”(life, life’s)、”bicycl・”(bicycle, bicycling) の2つを考えてみます。下の表が重み付けした文書単語行列の一部です。
0以外の値が入っている箇所は、その楽曲に該当する単語(列名の単語)が含まれていることになり、その単語が何度も使われていた場合は値が大きくなります。
例えば ”life・”は、多くの楽曲で使われているので小さな値になります。一方、”bicycl・”は、”Bicycle Race”と“More Of That Jazz”の2曲のみでしか使われていないので大きな値になります。さらに、”Bicycle Race” は何度も “bicycle”をリフレインしている曲ですので、一度しか”bicycle”という単語が出現しない“More Of That Jazz”より大きな値(46.557)をとっています。
この文書単語行列に特異値分解(SVD; Singular Value Decomposition) という手法を使うと、行列の情報を低次元に縮約することができ、類似した単語を使っている楽曲や単語自体をマッピングすることにより視覚的にグループ化することができます。
以下の左図では楽曲の類似性を、右図では単語の類似性を可視化しています。
上の左図で近くの位置にある楽曲は類似している、遠くにあるものは類似していないことを示しています。原点(0,0) の付近に多くの点が位置していますが、それらの集まりより遠くにある点(楽曲)にラベルをつけています。これらラベルのついた楽曲はクイーン全体の楽曲の中では、特異な単語を持つものということになりますが、ここでは”Bohemian Rhapsody” と”Great King Rat” の2曲に着目してみます。
どちらも原点から遠く離れた場所位置していますが、右図から単語の類似性をみると、2つの楽曲から同じぐらいの距離に”mama・”、”tell・”、”die・” が位置しています。 (*1)
これらの単語は、原点から若干遠くに位置しているので、あまり他の楽曲で使われていないという意味で少し特異な単語ではありますが、”Bohemian Rhapsody” と”Great King Rat” はこれらの単語がある程度使われています。これらのことも関係して、2つの楽曲はこのような場所に位置しているのです。(*2)
ちなみにどちらの楽曲もフレディ・マーキュリーが作詞しています。
*1; 左図と右図では各座標の最小値と最大値は異なるのですが、それは無視していただいて構いません。
*2; 実際は、他の単語の使用状況も考えています。
さらに関連する分析として、特異値分解した情報(特異ベクトル)を使い、(階層型)クラスター分析をしてみます。クラスター分析では、似た単語を使っている楽曲(正確には距離が最も近い楽曲)が順々にグループ化され、樹形図ができます。
この結果から、グループ(クラスター)の数を決めて楽曲をグループ化できますが、ここでは7つにして、グループごとに色付けした結果を示します。
文書単語行列の特異値分解によるマッピング、クラスター分析
https://public.jmp.com/packages/Classifying-songs-with-SVD-and-clusterin/js-p/5c3d904633868300a4314b...
■歌詞に含まれる単語によって作詞者を判別できる?
本分析対象当時(1973~1991)のクイーンのメンバーはフレディ・マーキュリー、ブライアン・メイ、ロジャー・テイラー、ジョン・ディーコンの4名ですが、全員が作詞、作曲に関わっており、それぞれヒット曲を世に送り出しています。文章でもそうですが、詩についても作詞者がよく使う単語、他の人はあまり使わないがその作詞者特有の単語というものがあるかもしれません。クイーンの場合はどうでしょうか。
ここでは作詞者が特定の1名のみである楽曲に絞りこみ、判別分析を使い、上記で記載した文書単語行列を使うことによって、作詞者を判別できるかを調べてみます。
使用頻度が上位100単語の文書単語行列(重みTD IDF)を使って、予測される作詞者と実際の作詞者が一致するかどうか調べてみます。
判別分析
https://public.jmp.com/packages/Can-we-distinguish-the-author-by-the-lyr/js-p/5c3d904633868300a4314b...
ここに表示されている結果は、次のように読みます。
結果の下側には、次のような表がありますが、これは本当の作詞者(Actual)と、判別分析により予測された作詞者(Predicted) のクロス集計表です。
Actual
|
Predicted Count
|
Author
|
Mercury
|
May
|
Taylor
|
Deacon
|
Mercury
|
42
|
1
|
0
|
0
|
May
|
0
|
36
|
0
|
0
|
Taylor
|
0
|
0
|
17
|
0
|
Deacon
|
1
|
0
|
0
|
11
|
1行目はフレディ・マーキュリーですが、上位100単語の情報を使って作詞者を予測したとき、予測が当たった楽曲は42曲あり、1曲だけが実際はフレディ・マーキュリーが作詞したのに、ブライアン・メイと予測してしまった、すなわち予測が外れたことになります。
表の上に表示されている”Percent Misclassified”は誤判別率という指標で、間違って予測した割合です。(間違って予測した楽曲数÷分析対象の楽曲数) で計算されます。
“Canonic Plot”は正準プロットとよばれ、2次元の座標で判別の状況を視覚的に表したものです。グラフ上に4人がポジショニングされていますが、ロジャー・テイラーは、他の3人から遠くに位置にポジショニングされています。そのため、ロジャー・テイラーの詩に使う単語の傾向が、他の3名と大きく異なることがいえます。実際、上で提示したクロス集計表を確認すると、ロジャー・テイラーが作詞した曲(17曲)はすべて予測が当たっており、他の3名の作詞した楽曲がロジャー・テイラーと作詞したと間違ってしまったものはないことからも分かります。ちなみにグラフ上でラベルを付けた点は、誤判別した楽曲になります。
今回ご紹介した分析も含め、私の分析レポートは以下の場所に保存しています。
https://public.jmp.com/users/259
これからも、気が向いたら興味深い分析結果を投稿するつもりですので、お楽しみに。
レポート共有サイト JMP Publicのご案内
JMPでは、分析レポートをWebサイトで共有できるJMP Publicというサイトがあります。
JMP Public
http://public.jmp.com/
昨年末にリリースしたJMPの最新バージョンであるJMP 14.2では、レポートウインドウから [ファイル] > [発行]のメニューを選択することにより、JMP PublicのサイトにインタラクティブHTML形式の分析レポートをアップロードすることができるようになりました。アップロードしたレポートは、アップロードした本人のみ閲覧できる、またはすべての方が閲覧できるように公開することができます。ただし、アップロードをおこなうには、SASプロファイル(メールアドレスとパスワードの情報を登録)を使ってJMP Publicのサイトにサインインしていただく必要があります。
JMP Publicにはたくさんの分析レポートが投稿されていますが、弊社(日本)のエンジニアが投稿したレポートがありますので、そのレポートの内容を詳しく解説した記事とともにお楽しみください。
You must be a registered user to add a comment. If you've already registered, sign in. Otherwise, register and sign in.