
データサイエンティストは、IT系の中でも新しい職種です。
ネットを介して膨大に集まるビッグデータを分析して、意味あるメッセージを取り出し、企業のマーケティングや課題解決に役立てる仕事です。
今最も注目されている職種のひとつです。
データサイエンティストに必須なスキルは、もちろんデータ分析。
分析にはプログラミング言語を使いますが、これから学ぶならPython一択です。
私の周囲の若い世代のデータサイエンティストは、90%以上がPythonユーザー。
Pythonを使えないと会話に入りにくいのが、実情です。
ここでは、そんなPythonの勉強法について、私の経験をもとにお話しします。

システム開発担当時にはC/C++やJavaがメインでしたが、今はPythonを使ってデータと格闘する毎日です。
Pythonってどんな言語
Pythonの概要

Pythonは、オランダのグイド・ヴァン・ロッサム氏が1991年に開発した、プログラミング言語です。
彼がモンティ・パイソンのファンだったことから、Pythonと名付けたことは有名な話です。
なるべくシンプルに、読み書きしやすいことを目指して作られており、プログラミングの初心者にもやさしい言語です。

Pythonは初心者にもフレンドリーなのが好印象です。
Pythonについては、以下の記事でも解説されています。
なぜデータ分析に使われるのか?

データ分析でPythonが使われる最も大きな理由は、分析に必要なライブラリ群がPython向けに多く提供されていることです。
データ分析は、大量のデータに対して、数値計算や、統計処理、機械学習などを行う作業です。これらの処理は、いずれも高度な理論を背景にした複雑な仕組みですから、自分でプログラミングするには、無限の時間がかかります。
誰かが作ってくれたものがあるなら、利用するのが効率的です。
Pythonには、データ分析のための様々なライブラリが豊富に用意されており、それらが無償で利用できます。
研究段階の最新の技術も、他の言語よりも早くPython向けに提供されます。
それを目当てに、世界中のデータサイエンティストがPythonに集まるのです。
データ分析のためのPython学習3ステップ

では、効率的な勉強方法は?
それでは、実際に私が行った方法をもとに、Pythonの学習方法を3ステップに分けてお話ししましょう。
ステップ1 Pythonに慣れる 3~5日間

最初は、Pythonそのものに慣れることに集中します。
プログラミング言語も言語ですから、まじめな方は文法とかから入りたくなりますよね。でも、無意味です。
すぐにでも使ってみるのが一番。
Pythonはデータ分析のための道具です。道具には、まずは慣れましょう。
初心者を対象にしたPythonのHowTo記事は、ネット上にたくさん掲載されています。
分かりやすそうなものを選んで、そこに記載されている情報の通りにPythonをインストールします。そして、記事に載っているサンプルコードを試していきましょう。
ときどき、サンプルコードを自分なりにアレンジして、実行してみます。
うまくいくときも、そうでないときもありますが、失敗を楽しみながら繰り返しましょう。
徐々に、Pythonの使い方がつかめてきます。
ただし、選ぶのは比較的新しい記事にしましょう。
あまり古い記事だと、記事が書かれたときと現在でPythonのバージョンが違ってしまいます。
記事のサンプルコードと手元の実行結果が違ったり、警告やエラーが表示されたりして、無用に戸惑うことになります。
学習用の本を購入して、勉強するものもちろんOKです。
選ぶなら、文法の細かい解説が多いものは避けて、実際に動くサンプルコードが豊富に載っているものを選びましょう。
やはり、本に記載されているサンプルコードを、手元で試していきます。
本を購入する時も、新しいものを選んでくださいね。
この作業を3日、長くて5日も続ければ、プログラミングの初心者でもなんとなくPythonが分かった気になってくるはずです。
あまり長々とこのステップをやり続けても意味はありません。飽きてきたら、早々に次のステップに移りましょう。

C++やJavaと比べれば、Pythonのコードは簡単。サンプルコードをざっと眺めれば、何をやっているのか理解できますし、どう書けばいいかもなんとなくつかめます。
ステップ2 データ分析に必要なライブラリを試す 5日間

データサイエンティストにとってPythonは、データ分析をするための道具です。
Pythonを勉強するなら、データ分析に必要な知識を中心に学ぶのが最も効率がよいはず。
ここからは、データ分析に必要なライブラリ群を試します。
ライブラリの基本的な説明やHowToは、やはりネット上に記事がたくさんあります。
これも、サンプルコードが豊富なわかりやすそうな記事を選んで、試してみましょう。
データ分析に使うライブラリのサンプルコードは、簡単なデータを分析しているものが多くあります。
単なるライブラリの学習ではなく、データ分析の疑似体験も兼ねられるので、楽しく勉強できます。
優先的に学んでおくべきライブラリをあげておきましょう。
これらは、Pythonでデータ分析をするほとんどのデータサイエンティストが使うライブラリ群です。
これらを使えば、データの前処理、分析、可視化までのサイクルをPythonで実行することができます。
Numpy
ベクトルや行列などの数値計算を行うためのライブラリ
pandas
大規模な表形式のデータの処理を行うためのライブラリ
Matplotlib
データの可視化のためのライブラリ
データを、線グラフや棒グラフ、散布図等の形式で描画してくれる
scikit-learn
様々な手法の機械学習を集めたライブラリ
Pythonを使ったデータ分析の本を購入して勉強するのも、もちろんOKです。
購入するなら、データを分析して見せたサンプルコードが多く記載されているものを選びましょう。
この時点では、ライブラリを使ってデータを扱うことに慣れることが重要。統計や機械学習の理論的な部分は、あとで必要に応じて勉強すればよいのです。
ステップ3 実際のデータを分析してみる 5日間以上好きなだけ

ステップ2まで終われば、データ分析のための準備は終わりました。
ここからは、実際のデータで分析を試してみる段階に入ります。
ネット上には、データ分析の対象になりそうな興味深いデータをダウンロードできるサイトが多くあります。いくつか例をあげると…
Googleトレンド
Google の検索エンジンから、検索用語に対する統計をダウンロードできます。
WHO
世界保健機関(WHO)が提供している保健衛生に関する各種データを入手できます。
気象庁
国内の過去の気象データをCSV形式でダウンロードできます。
これ以外にもたくさんありますので、興味に応じてダウンロードして分析してみてください。
事前に、データに関する何らかの解くべき課題や検証すべき仮説を立て、それに合わせて、データの加工や分析を試行錯誤するのがコツです。
データサイエンティストにとって最も重要なスキルは、良質な「問い」を作りだすこと。
この部分も一緒にトレーニングしましょう。
まとめ

データサイエンティストの仕事は、データから意味あるメッセージを取り出すことです。
プログラミング言語は、そのための道具にすぎません。
道具であれば、データ分析の文脈で出てくる機能を、必要十分に使いこなせばよいのです。
細かいことはすっ飛ばして、触って試して慣れるのが一番。
データ分析のためのPythonだから、データ分析で学習する。
これを忘れずに、楽しくPythonを学びましょう。
プログラミング言語はPythonがよいと聞きました。おすすめの勉強方法ってありますか?