データ分析やるならPython!! おすすめの勉強法は?

初心者
データサイエンティスト志望です。
プログラミング言語はPythonがよいと聞きました。おすすめの勉強方法ってありますか?

データサイエンティストは、IT系の中でも新しい職種です。
ネットを介して膨大に集まるビッグデータを分析して、意味あるメッセージを取り出し、企業のマーケティングや課題解決に役立てる仕事です。
今最も注目されている職種のひとつです。 

データサイエンティストに必須なスキルは、もちろんデータ分析。
分析にはプログラミング言語を使いますが、これから学ぶならPython一択です。
私の周囲の若い世代のデータサイエンティストは、90%以上がPythonユーザー。
Pythonを使えないと会話に入りにくいのが、実情です。 

ここでは、そんなPythonの勉強法について、私の経験をもとにお話しします。

回答者
私は、システム開発の実務を10年以上経験した後に、データサイエンティストに転身しました。
システム開発担当時にはC/C++やJavaがメインでしたが、今はPythonを使ってデータと格闘する毎日です。

Pythonってどんな言語

Pythonの概要

Pythonは、オランダのグイド・ヴァン・ロッサム氏が1991年に開発した、プログラミング言語です。
彼がモンティ・パイソンのファンだったことから、Pythonと名付けたことは有名な話です。 

なるべくシンプルに、読み書きしやすいことを目指して作られており、プログラミングの初心者にもやさしい言語です。 

回答者
C/C++やJavaは、ソフトウエア開発の専門家向けの言語。
Pythonは初心者にもフレンドリーなのが好印象です。

Pythonについては、以下の記事でも解説されています。

初心者でも習得しやすい!?今話題の”Python”とは?

2019年6月30日

なぜデータ分析に使われるのか?

データ分析でPythonが使われる最も大きな理由は、分析に必要なライブラリ群がPython向けに多く提供されていることです。 

データ分析は、大量のデータに対して、数値計算や、統計処理、機械学習などを行う作業です。これらの処理は、いずれも高度な理論を背景にした複雑な仕組みですから、自分でプログラミングするには、無限の時間がかかります。
誰かが作ってくれたものがあるなら、利用するのが効率的です。 

Pythonには、データ分析のための様々なライブラリが豊富に用意されており、それらが無償で利用できます。
研究段階の最新の技術も、他の言語よりも早くPython向けに提供されます。
それを目当てに、世界中のデータサイエンティストがPythonに集まるのです。 

データ分析のためのPython学習3ステップ

初心者
データサイエンティスト志望なら、Pythonがおすすめなのは分かりました。
では、効率的な勉強方法は?

それでは、実際に私が行った方法をもとに、Pythonの学習方法を3ステップに分けてお話ししましょう。

ステップ1 Pythonに慣れる  3~5日間

最初は、Pythonそのものに慣れることに集中します。 

プログラミング言語も言語ですから、まじめな方は文法とかから入りたくなりますよね。でも、無意味です。
すぐにでも使ってみるのが一番。
Pythonはデータ分析のための道具です。道具には、まずは慣れましょう。 

初心者を対象にしたPythonのHowTo記事は、ネット上にたくさん掲載されています。
分かりやすそうなものを選んで、そこに記載されている情報の通りにPythonをインストールします。そして、記事に載っているサンプルコードを試していきましょう。 

ときどき、サンプルコードを自分なりにアレンジして、実行してみます。
うまくいくときも、そうでないときもありますが、失敗を楽しみながら繰り返しましょう。
徐々に、Pythonの使い方がつかめてきます。 

ただし、選ぶのは比較的新しい記事にしましょう。
あまり古い記事だと、記事が書かれたときと現在でPythonのバージョンが違ってしまいます。
記事のサンプルコードと手元の実行結果が違ったり、警告やエラーが表示されたりして、無用に戸惑うことになります。 

学習用の本を購入して、勉強するものもちろんOKです。
選ぶなら、文法の細かい解説が多いものは避けて、実際に動くサンプルコードが豊富に載っているものを選びましょう。
やはり、本に記載されているサンプルコードを、手元で試していきます。
本を購入する時も、新しいものを選んでくださいね。 

この作業を3日、長くて5日も続ければ、プログラミングの初心者でもなんとなくPythonが分かった気になってくるはずです。
あまり長々とこのステップをやり続けても意味はありません。飽きてきたら、早々に次のステップに移りましょう。 

回答者
あなたが、私と同様にC++やJavaの経験者なら、上記の慣れのフェーズは数時間で終わります。

C++やJavaと比べれば、Pythonのコードは簡単。サンプルコードをざっと眺めれば、何をやっているのか理解できますし、どう書けばいいかもなんとなくつかめます。

ステップ2 データ分析に必要なライブラリを試す  5日間

データサイエンティストにとってPythonは、データ分析をするための道具です。
Pythonを勉強するなら、データ分析に必要な知識を中心に学ぶのが最も効率がよいはず。
ここからは、データ分析に必要なライブラリ群を試します。 

ライブラリの基本的な説明やHowToは、やはりネット上に記事がたくさんあります。
これも、サンプルコードが豊富なわかりやすそうな記事を選んで、試してみましょう。
データ分析に使うライブラリのサンプルコードは、簡単なデータを分析しているものが多くあります。
単なるライブラリの学習ではなく、データ分析の疑似体験も兼ねられるので、楽しく勉強できます。 

優先的に学んでおくべきライブラリをあげておきましょう。
これらは、Pythonでデータ分析をするほとんどのデータサイエンティストが使うライブラリ群です。
これらを使えば、データの前処理、分析、可視化までのサイクルをPythonで実行することができます。 

Numpy
  ベクトルや行列などの数値計算を行うためのライブラリ 

pandas
  大規模な表形式のデータの処理を行うためのライブラリ 

Matplotlib
  データの可視化のためのライブラリ
  データを、線グラフや棒グラフ、散布図等の形式で描画してくれる 

scikit-learn
  様々な手法の機械学習を集めたライブラリ 

Pythonを使ったデータ分析の本を購入して勉強するのも、もちろんOKです。
購入するなら、データを分析して見せたサンプルコードが多く記載されているものを選びましょう。
この時点では、ライブラリを使ってデータを扱うことに慣れることが重要。統計や機械学習の理論的な部分は、あとで必要に応じて勉強すればよいのです。

ステップ3 実際のデータを分析してみる  5日間以上好きなだけ

ステップ2まで終われば、データ分析のための準備は終わりました。
ここからは、実際のデータで分析を試してみる段階に入ります。 

ネット上には、データ分析の対象になりそうな興味深いデータをダウンロードできるサイトが多くあります。いくつか例をあげると… 

Googleトレンド
  Google の検索エンジンから、検索用語に対する統計をダウンロードできます。

WHO
  世界保健機関(WHO)が提供している保健衛生に関する各種データを入手できます。

気象庁
  国内の過去の気象データをCSV形式でダウンロードできます。

これ以外にもたくさんありますので、興味に応じてダウンロードして分析してみてください。 

事前に、データに関する何らかの解くべき課題や検証すべき仮説を立て、それに合わせて、データの加工や分析を試行錯誤するのがコツです。
データサイエンティストにとって最も重要なスキルは、良質な「問い」を作りだすこと。
この部分も一緒にトレーニングしましょう。

まとめ

データサイエンティストの仕事は、データから意味あるメッセージを取り出すことです。
プログラミング言語は、そのための道具にすぎません。
道具であれば、データ分析の文脈で出てくる機能を、必要十分に使いこなせばよいのです。

細かいことはすっ飛ばして、触って試して慣れるのが一番。
データ分析のためのPythonだから、データ分析で学習する。

これを忘れずに、楽しくPythonを学びましょう。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA