このアドインは、日本語のテキストを分析するためのアドインです。このアドインは、他の言語では動作しません。
目的
[分析] > [テキストエクスプローラ]の日本語の前処理や可視化の機能を補完、拡張するためのアドインです。以下のようなことが可能です。
- 分析対象とする日本語の品詞を指定する
- 名詞句のみを分析対象として指定する
- 共起ネットワークの描画
このアドインは、JMP 18のPythonインテグレーションの機能を利用しています。日本語の前処理は、spaCy、GiNZA , ja-ginzaを使用しています。共起ネットワーク描画のための前処理に、NetworkX を使用しています。
スクリーンショット
使い方
- テキストデータが含まれる列は、尺度を「非構造化テキスト」に変更しておきます(該当の列を選択後、[列] > [列情報]から変更)。
- 「アドイン」>「日本語テキスト分析」>「共起関係を調べる」を選択します。JMPを起動後に初めてメニューを選択した場合、起動まで時間がかかります。
- テキストデータが入力されている列を「テキスト列」に指定します。分析のオプションから分析に含める品詞にチェックを入れます。
- [OK]ボタンをクリックすると、レポートとオプション設定のためのウィンドウが表示されます。
- 「単語と句のリスト」で不要な単語があれば、単語を選択後、右クリックして、「ストップワードの追加」で分析対象から除くことができます。
- 「コマンド」ウィンドウの[共起ネットワークを作成]ボタンをクリックします。
使い方の詳細については、添付のPDFをご覧ください。
テスト環境
- JMP 18.1
- Windows 11
- 日本語環境
- Python 3.11.9
- spaCy 3.7.5
- GiNZA 5.2.0
- NetworkX 3.3
- Pandas 2.2.3
インストール方法
「Text Explorer Japanese Extension.jmpaddin」をダウンロードしたあと、JMPで開いて、アドインをインストールします。
必要なPythonパッケージ
以下のPythonパッケージをインストールする必要があります。
- spaCy
- GiNZA
- ja-ginza
- NeworkX
- Pandas
- [ファイル]>[新規作成]>[JSLスクリプト]を選択します
- 以下のスクリプトを入力して[編集]>[スクリプトを実行]を選択します
Python Install Packages("pandas numpy spacy ginza ja_ginza networkx");