データエンジニアリングにおけるプログラミングの重要性



今回、データエンジニアリングとプログラミングについて説明します。データ分析を行う際、皆さんは何のツールを使いますか?この質問に対して、Excelと答える方は多いと思います。実際に、自身も5年前まではExcelのみを使っていました。しかし、Excelには大きな欠点がいくつかあります。BI(ビジネスインテリジェンス)ツールと答えた方もいらっしゃると思いますが、これも一長一短あります。データ分析で食べていくデータサイエンティストになるのであれば、プログラミング言語を一つ以上マスターするのはマストです。データサイエンティストでなくても、データ分析の業務に携わる人は最低限、簡単なコードを読むくらいのスキルは必要だと思います。以下にその理由を説明します。

データ分析を行う上で、(VBAは除いた)Excelはデータハンドリング(データ加工)がしやすく、多くの人が少しは触ることができるという最大の長所がある一方、5つの大きな欠点があります。

■(VBAを除いた)Excelの欠点
①データを取得できる量に限りがある
 これは、昨今のビッグデータ時代のデータ分析において、大きな弊害になっています。データを貯蓄・分析が一緒になっていることでこのような問題が発生します。
②まとまった処理を行いづらい
プログラミングのような、一括処理をExcelは行うことができず、クリックやドロップなどを何度も行うことで多くの時間を浪費します。
③データ分析を再現、微修正しづらい
Excelだと、一度行った複雑なデータ分析を再現することはかなりの手間になってしまいます。プログラミングであれば、一部のコードを修正するだけで簡単に再現をすることができます。
④複雑なデータ分析ができない
Excelに入っている分析ツールは回帰分析や一部の検定は可能ですが、ロジスティック回帰などの多くの分析を行うことができません。自分で数式を組んで分析を行うことは可能ですが、それよりプログラミングを覚えた方が早いです。
⑤自動化できない
②の内容に少し被るのですが、Excelはデータ分析の自動化ができません。データ分析を毎回手動で行う必要があるので、必要以上に時間を取られます。結果の確認ツールなども全て手動になってしまいます。

以上のように、Excelはデータ分析を仕事にする人にとっては大きな欠点があります。やはりデータ分析を仕事にする人はプログラミングを習得するべきです。RやPythonはオープンソースで無料なので、導入コストはかからないので、社内稟議は通りやすいと言えます(医薬品業界などは特殊で、特定のプログラミング言語を使わないといけないなどのルールはありますが)。

また、BIツールに関しては、データハンドリングにしやすさ・処理速度の安定・自動化できる・様々なデータ分析に対応できる等の多くのメリットがある一方、各BIツールによって使用方法が異なる・使用料が結構かかるという欠点があります。つまり、BIツールでのデータ分析しか行っていない転職や独立を考えているデータ分析者は、社外では通用する市場がかなり限定される人材になってしまうリスクを少し注意する必要があります。

いかがでしょうか。データエンジニアリングにおけるプログラミングの重要性がご理解いただけたでしょうか。

よろしければシェアお願いします。
このエントリーをはてなブックマークに追加  



コメント

このブログの人気の投稿

統計と、機械学習・深層学習(マシーンラーニング・ディープラーニング)の違いとは?

定量分析と定性分析の使い分け

データベースの意味と、構築する際の留意点