Extracting, wrangling, and analyzing web data

TrevorBihl · Apr 12, 2018 01:49 PM

データマイニングと統計における問題の 1 つは、データを収集し、それをソフトウェアで操作することです。幸いなことに、 JMPこれを非常に簡単にします。

しかし、データを取得したら、何をする必要があるでしょうか? まず、収集したものを調べてデータを「整理」し (たとえば、データを整理するなど)、それから分析する必要があります。このブログ投稿では、Web データ収集、データラングリング、分析の 3 つの領域すべてを検討します。

データ収集

最近のニュースは、米国への移民のさまざまな側面に焦点を当てています。そこで、米国への移民の傾向、特に合法的な永住権「グリーンカード」を取得する人の数を調べてみましょう。関連データは米国政府から無料で入手できます。 2016 年移民統計年鑑。データを抽出する具体的な Web ページは次のとおりです。

https://www.dhs.gov/immigration-statistics/yearbook/2016/table1

このテーブルには、以下に示すように、年と番号という 2 つの情報列があります。私の妻も 2014 年の統計に追加された人物の 1 人であったため、このデータは私にとって個人的に意味があります。彼女がいなかったら、2014 年の件数は 1,016,517 件になっていたでしょう。

undefined Table 1: 2016 Yearbook of Immigration Statistics

Web データの抽出

分析対象の Web ページができたので、データを取り込む必要があります。 JMP 。このために、次を使用できます。インターネットオープン。これは強力なツールで、次の場所にあります。ファイル > インターネットを開く。そこから、次の関数が表示されます (対象の URL がすでに貼り付けられています)。JMP で Web ページを開く方法にはいくつかの選択肢があります。この例では、Web ページをデータとして開き、2 列のデータが適切に検出されることを期待します。これは、Web ページ開発者が物事を論理的に整理することに依存します。URL を貼り付け、URL を開く方法を選択したら、わかりました。

undefined Internet Open dialog box in JMP

次に、JMP は Web ページを検索して、データが含まれている可能性のあるテーブルを探します。 JMP が検出した内容はリスト形式で表示されます。幸いなことに、この Web ページには、JMP がデータであると考えた項目が 1 つだけありました。開きたいテーブルを選択する必要があります。表1ここをクリックして、わかりました。

undefined Importing Detected Tables

JMP は、Web スクレイピングされたデータを含む新しいデータテーブルを作成します。

undefined Resultant Data Table

データラングリング

一見すると、データは効果的に読み込まれているように見えます。たとえば、両方の変数が (予想通り) 連続的であり、データをざっと見ただけでは何も異常はありません。ただし、データをプロットすると (次を使用)グラフビルダーたとえば)、1976 年に外れ値があることがわかります。

undefined Data wrangling reveals an outlier

どうやら、1976 が 19761 と入力されたようです。したがって、いくつかの可能性を考慮する必要があります。

誰かが 19761 を「太い指」にして、今年にさらに「1」を加えたのでしょうか?
「1」はデータの 2 列目、つまり 1976 年の 1,499,093 人になりますか?
何か別のものですか？

元の Web ページに戻ると、3 番目の選択肢が正しい答えであることがわかります。余分な「1」は、その年の一部として JMP によって転写された脚注からのものです。脚注には、1976 年に行われた会計年度変更に関する情報が読者に示されています。この分析のために、「1」のみを削除します。ただし、より徹底的な分析では、これが隣接する年で誤って過剰にカウントされているかどうかを調べる可能性があります。

研究者向けにさらに指摘しておきます。私たちは年を自然に理解しているため、この問題を解決するのは比較的簡単です。ただし、移民データに同様の問題が存在する場合、データのばらつきが大きいため、検出できない可能性があります。したがって、インターネット用のデータテーブルを作成している場合は、将来の研究者のことを考えて、最も直感的な列に脚注を入れてください。

データの分析と解釈

簡単に分析するには、次を使用します。 YをXでフィットそして、さまざまなモデルを作成します。単純な線形回帰モデル以上のものを作成できます。 YをXでフィットで説明したように、私の本の第9章JMP を使用した生物統計。

まず、選択したものによって一次線形フィット、つまり線形回帰をフィットさせます。フィットライン。この線 (下の赤い線) は、明らかにデータにとって適切なモデルではありません。したがって、以下に示すように、2 次から 6 次までのさまざまな高次多項式フィットの作成に進みます。

undefined Applying Various Curve Fits

視覚的には、2 次近似 (緑の線) もデータを適切にモデル化していないことがわかります。ただし、3 次から 6 次の近似は、生データの複雑さの一部を捉えているようです。私にとって、6 次適合は、3 次および 4 次適合で見られる 2017 年頃に見られるような指数関数的な増加がないため、最も良く見えます。 5 次近似は、データの終わりでは適切に見えますが、始まりが奇妙です。したがって、これらのオプションの中で 6 次モデルが最もよく見えます。

ここからは残差などを調べていきたいと思います。説明された分散を調べることによる大まかな分析も役立ちます。次の表は、R2 乗および調整された R2 によるモデルの品質の大まかな評価を示しています。調整された R 二乗は、変数を追加することにペナルティを与えるため重要です。全体として、この評価は 6 次モデルが多くの変動を説明できることを示しています。これをモデルの視覚的評価と組み合わせると、6 次適合がこのアプローチを使用して作成された最良のモデルであるように見えます。

注文	R2乗	R二乗調整済み
1	0.336	0.333
2	0.359	0.353
3	0.552	0.545
4	0.562	0.553
5	0.639	0.630
6	0.669	0.659

この解釈は、誤差に多くの自由度が割り当てられている問題の平均二乗に関するものです。したがって、これらのモデルからの予測の品質は低い可能性があります。

次のステップは、時系列モデリング機能をさらに調査することかもしれません。 JMPこのデータを使用して。とはいえ、1日ならこれで十分！

ウェブからのデータを含むデータ収集の詳細については、私の本の第 2 章をご覧ください。 JMP を使用した生物統計。この本の第 3 章では、データラングリングについて詳しく説明します。