データサイエンス再入門

最近、こちらの続きをぼちぼち続けている。(2年前かぁ。。) 今回は特にブログにしないで、Jupyter Notebook 形式でそのままリポジトリにコミットするようにした。

再開しようと思ったのは、github で ipynb ファイルがブレビューとして表示されるのを知って面白そうだと思ったのと、最近、pandas を業務で使う頻度が増えてきたから。 まあ、pandas はデータ分析のために使用しているわけではなく、CSV ファイルとその CSV の内容がデータベースに登録されているかどうかのチェックに使うためなので、全然サイエンスではないんだけど。。

まあ、こういった用途で一番便利だと感じているのが、データベースのレコードと、CSV のレコードを join できるという点。これを使うと、どの CSV のデータが登録できていないか特定するのがものすごく楽。 まあ、本当はデータ分析で使っていきたいんだけど。。。

comments powered by Disqus