cancel
Showing results for 
Show  only  | Search instead for 
Did you mean: 
Choose Language Hide Translation Bar
JMP 16の新機能を用いたデータ分析  Part.2 データテーブルの比較 ~データで変化を実感するために~

万物は常に変化していく。仏教でいう諸行無常の考え方ですが、別れと出会いが多いこの季節、変化をネガティブに捉えるのでなくポジティブに捉えることが重要です。世の中は日々良くなっているはずです。

 

新型コロナワクチンの投与は、日々世界が良い方向に向かっていると考えるべきでしょう。投与が進むことにより、感染が収束に近づいていく。そのことを日々実感するために、私は、国ごとのワクチンの投与状況(各国ごとに、人口100人中何人が投与したか)を可視化するレポートを公開しています。

 

COVID-19 Vaccinations Status by Country (by JMP Public)

https://public.jmp.com/packages/npMyYpl9Ns7m_SG7wJcLy

 

レポートを描くためのデータ (https://github.com/owid/covid-19-data/tree/master/public/data/vaccinations)は日々更新されており、国、日付ごとに、ワクチンの投与数、投与人数、人口100人あたりの投与人数などが記録されています。

 

新しくデータを取り込んだとき、その前のデータとは何が変わったのかを知りたいことがあります。新しいデータでは、新しく投与開始した国が記録されている、ある国では、最新の日付に対する投与数が大幅に増加しているといった喜ばしい状況を知ると、世界が良い方向に変わっていることを実感できます。

 

執筆時点(2021-03-29)で取り込んだ最新のデータの一部を示します(以下、最新データと表記)。

このデータは、国(Country)と日付(Date)でソートされています。

 

nao_masukawa_1-1617071226642.png

 

一方、こちらは1日前(2021-03-28)のデータです。(以下、1日前データと表記)

nao_masukawa_2-1617071252087.png

 

データの行数は最新データが9,303件、1日前データが9,172件です。この1日の間に131件ものデータが追加されています。イタリア(Italy) に、2021-03-28のデータが追加されていることはわかりますが、当然、他の国々でもデータが追加されています。

 

私は、大人になってから新聞や雑誌にのっている間違え探しをやるのが億劫になってしまいました。何が違っているかを調べるには、JMP 16の「データテーブルの比較」を使ってみるしかありません。

 

JMP 16の「データテーブルの比較」

「データテーブルの比較」は、2つのデータテーブル(JMP形式)を比較して、相違点などをレポートする機能です。以前のバージョンからこの機能はありましたが、JMP 16では機能が大幅に刷新されました。

 

今回のようなデータでの比較をするのであれば、単純に2つのテーブルを行番号でマッチさせるわけにはいきません。国ごとのデータ行数は可変であり、得られた日付の数だけデータがあるからです。

 

以前のバージョンでは、このようなデータでの比較はできなかったのですが、JMP 16ではデータの揃え方についてID列を使用することによりできるようになりました。さらに、比較した後のレポートも非常にわかりやすくなっているので、実際にJMP 16で、最新データと1日前データを比較していきます。

 

データの揃え方を指定

比較する2つのデータテーブルをJMPで開いておき、最新データをアクティブにした状態で、[テーブル] > [データテーブルの比較]を選択します。

 

nao_masukawa_3-1617071355844.png

 

比較には最新データ、対象テーブルには1日前データが指定されています。「オプション」に表示される列の対応で、同じ名前の列が対応付けされているのがわかります。

 

その下にある「データの揃え方」が重要です。この例では、「ID列の使用」ボタンをクリックし、CountryDateにチェックをいれます。すなわち、国と日付ごとに相違点を見ていくことを指定しているのです。*

nao_masukawa_4-1617071383247.png

 

指定後、右上の[比較]ボタンをクリックすることにより、比較のレポートが表示されます。

 

* ここでCountryだけ指定しても相違点としては同じレポートが表示されますが、日付にもチェックをしておくと、相違点のレポート上に日付も表示されるので比較のレポートが分かりやすくなります。

 

比較レポート

2つのデータテーブルを比較したレポートです。

 

赤色で塗られている行は、最新データには含まれていて、1日前のデータにはないものです。この例では該当する行が132行あることを示しています。

黄色で塗られているセルは、最新のデータと1日前のデータを比較したとき値が異なるセルです。この例では該当するセルが5,806あることを示しています。

 

nao_masukawa_5-1617071534030.png

 

上記のレポートで、オーストリア(Austria)を見てみましょう。赤色の行として 2021-3-27, 2021-3-28のデータが追加されていることがわかります。一方、2021-3-26以前のデータのセルの多くは黄色く塗りつぶされていて、データが修正されていることがわかります。レポート上で黄色のセルをクリックすると、レポート上側に「セルのデータ」に詳細が表示されます。この例では、オーストリアの2021-3-26の累積投与数は、1,492,002件から1,489,710件に修正されていることがわかります。

 

レポートをスクロールして他の相違点もみていきましょう。

 

nao_masukawa_6-1617071554860.png

 

こちらは、ガンビア(Gambia、西アフリカの国)のデータです。最新データで新たに追加された国です。2021-03-28に投与が開始され、人口100人あたり0.22人に投与されたことが分かります。ワクチンが国全体に行き渡るのはまだ先のことなのかもしれませんが、ガンビアにとっては大きな一歩です。

 

ちなみに、青色で塗られている行が1行ありますが、これは1日前データにはあるが、最新データにはない行を示します。

 

図1.png

該当するのは、ルワンダ(Rwanda,東アフリカの国)2021-03-25の行です。理由はわかりませんが、何かデータに不備等があり、最新データでは削除されたのかもしれません。

 

変化をデータで把握する

読者の方でも、今回のような日ごと、またはもっと短い間隔で更新されるデータがお持ちの方もいらっしゃるのではないでしょうか。製造の工程パラメータのデータ、臨床試験のデータ、時間ごとの特性値の推移をみる実験データ、大規模な消費者のアンケートデータなどさまざまな例が考えられ、今回紹介した「データテーブルの比較」がデータをチェックする用途でも役に立つかと思います。

 

万物は常に変化していく。だからこそ日々の生活は楽しい。そんなポジティブ思考を常に持っていきたいと考える筆者でした。

 

Last Modified: Dec 19, 2023 3:18 PM