買わないオトコの買い物ブログ

『それでも欲しいもの』を求めて・・・ファッションやアウトドアを中心に日常のアレコレを紹介をするブログ


データサイエンスを勉強するにあたって特に役立った技術書3冊


f:id:null11blg:20191228165324p:plain

 

2019年、特に私が興味を持ったのはデータサイエンスの分野でした。

 

データサイエンスの分野は「21世紀で最もセクシーな職業」と形容されるほど、昨今注目されています。

 

データサイエンスってなんだよって最初は思ったのですが、やってることは統計学やAIを使って、データを分析したり、未来の予測をしたり、中々ワクワクするようなことでした。

 

未来が予測できるならそれを応用して、株取引をしたり競馬予測したり...

 

そんな思いが頭の中を飛び交っていたということもあったのか、データサイエンスもといデータ解析の勉強は非常に捗った1年だったように思います。

 

今回はデータ解析の勉強を行うにあたって、わかりやすく、そして現場でいきなり役立ったと思う技術書について紹介したいと思います。

 

 

Pythonではじめる機械学習 -scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎

データ解析を行うにあたって必要となるのはやはりプログラミングの知識でしょう。

 

こちらはPythonを使ってデータ解析を行うのにはもってこいの技術書となっています。

 

Pythonには機械学習用のライブラリである「scikit-learn」があり、簡単な記述ですぐに機械学習手法を試して実装できます。

 

私としては、今シーズンはscikit-learnが大活躍でした。

 

LassoやRidge、Elastic-Netといったメジャーな線形の回帰手法はもちろんのこと、サポートベクターマシンやガウス過程回帰など非線形な手法についてもscikit-learnに実装されているのは非常に便利でした。

 

PCAやk-meansなど、次元削減や次元圧縮、クラスタリング手法についても実装されているのはよいですね。

 

とにかくscikit-learnですぐに試すことができる、というのは自分の理解のためになるのはもちろんのこと、現場への導入もスピードアップになると実感しました。

 

こちらの書籍にはscikit-learnの使い方が載っているのはもちろんのこと、データの前処理やデータ分割手法、こういったときにはどうする?といったケーススタディなどこれ一冊でPythonを用いたデータ解析の一連の流れが網羅されているように思いました。

 

多項式項や交差項を追加することで、線形手法でも非線形データを取り扱えるということをこの書籍から学んだときは目からウロコでした。

 

データ解析をしてみたいという方もこの本から勉強を始めるとデータ解析の流れからその手法にかけて網羅的に学ぶことができると思います。

 

個人的に、この書籍で学んだことを使って競馬AIをRandomForestを使って実装してみたというのが11月のハイライトでした。

 

Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎

Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎

  • 作者:Andreas C. Muller,Sarah Guido
  • 出版社/メーカー: オライリージャパン
  • 発売日: 2017/05/25
  • メディア: 単行本(ソフトカバー)
 

 

Kaggleで勝つデータ分析の技術

Kaggleは世界中のデータサイエンティストがデータ解析の技術を競い合うコンペティションです。

 

こちらの本をもってKaggleで勝つんだ!!!というモチベーションは私にはなかったのですが、この書籍の内容は一通りデータ解析の流れを掴んでデータ解析ができるようになったあとのステップアップとしてはピッタリだったように思います。

 

Box-Coxやyeo-johnson変換で精度向上というのを読んだときには身体中に電撃が走ったのを覚えています。

 

もちろんデータ解析においても万能薬というのはないので、一つ一つの手法を理解し、用法用量を守って使う必要がありますけどね。

 

実際にKaggleに参加し腕を磨くというのが理想だと思いますが、まずはその足がかりとして、あるいは他のデータサイエンティストはどういった手法を使っているのだろうといったあたりを知るというのにはもってこいだと思いました。

 

Kaggleで勝つデータ分析の技術

Kaggleで勝つデータ分析の技術

 

 

時系列解析:自己回帰モデル・状態空間モデル・異常検知(Advanced Python)

こちらの本に期待したことは、株に関するAIを作る基礎知識が欲しいなということでした。

 

私のモチベーションのほぼすべてが最終的にAIを作れるようになる!!!なので、そのための基礎を固めるというのが2019年の密かな目標でした。

 

こちらの本では、株価予測に必要な時系列データの扱い方について基礎から学ぶことができました。

 

時系列データを扱う手法としてはLSTMがありますが、個人的にLSTMを学ぶ前にもっと他の手法に触れてみたいという思いがあったために、あえてDeep Learning系の書籍は選びませんでした。

 

そこでこの書籍を手に取ったのですが、これまた大正解でした。

 

時系列データの分解手法から自己相関・偏自己相関から学ぶことができました。

 

AR/MAモデルやARIMAモデル、SARIMAモデルなど時系列モデルの大御所に触れることができたのは非常によかったと思います。

 

最終的にはLSTMも学びたいと思っていますが、ファーストステップとしては大正解でした。

 

時系列解析: 自己回帰型モデル・状態空間モデル・異常検知 (Advanced Python)

時系列解析: 自己回帰型モデル・状態空間モデル・異常検知 (Advanced Python)

  • 作者:島田 直希
  • 出版社/メーカー: 共立出版
  • 発売日: 2019/09/07
  • メディア: 単行本
 

 

まとめ

今回はデータサイエンティストを目指す私が役に立ったと感じた技術書について紹介しました。

 

本を読んでそれをそのまま使えるというのは学習のモチベーションに大きく繋がることだなぁと改めて実感しました。

 

技術書は1冊1冊の値段が高いというのが問題ですが、自己投資としてそこを惜しまずに投資できれば、あとで大きくなって自分に返ってくるものだと思います。

 

私としては、これらの知識を活かしてゆくゆくはAIを使って様々な問題を解決できればなぁと思う次第です。

 

まずは自分の財布事情を解決...

 

よこしまな思いは人を動かす...そんなことを思いつつ2019年を振り返る私でした。