投稿

3月, 2020の投稿を表示しています

相関関係と因果関係の違いとは?

イメージ
今回、相関関係と因果関係の違いについて、説明します。
相関関係とは、AとBという事象が数字の関連性があることを指します。Aが増えるとBが一緒に増えたり、Aが増えるとBが減ったりするという関係です。相関関係の測り方は様々あるのですが、それはまた次回お話させて頂きます。例えば、①アイスクリームの売上は気温が上がると増えること、②家賃は駅から距離が離れると低くなる、以上ようなことが相関関係で、上記の例は因果関係でもあります。因果関係がある際は必ず相関関係が成り立っていて、因果関係は相関関係の下位概念です。上記の2例は因果関係がありますが、下記の2例は相関関係ですが、因果関係でありません。
①「因果関係が逆」⇒交番が多い地域は犯罪数が多い(犯罪数が多いから多くの交番ができていると考えられる)、②「偶然の一致」⇒地球温暖化が進むと、海賊が減る、など










相関関係は、2つの因子に数値の関係性があるだけしか言えなくて、どちらが影響を与えているのか、間に他の因子がある可能性をあまり考慮していません









因果関係は、関係性があることに加え、影響の方向性も決められ、間の因子に関しても一部考慮されています。









ただ、因果関係は数値だけでなく、データの意味も考慮する必要があるため、データから因果関係を導くことは非常に難しいことです。統計的に因果関係を一部証明することもできますが、完全に証明することはできません。そのため、多くのデータ分析で出されている関係性は相関関係である可能性が非常に高いと言えます。

もっと知りたい方は以下の本がおススメです。




いかがでしょうか。データ分析を行うとき、相関関係か・因果関係かどちらを証明しているか意識することが重要だと思います。相関関係まで求めるだけでも十分な場合も多いので、場合に応じて使い分けましょう。

よろしければシェアお願いします。





JDLA認定ディープラーニングG検定の合格体験記

イメージ
今回は、JDLA認定ディープラーニングG検定とはどんな検定か、また取得に向けた勉強方法について書いていきます。

JDLA認定ディープラーニング検定は、「G検定」と「E検定」があります。「G検定」はGeneralist(ゼネラリスト)検定であり、ディープラーニングの知識全般を聞く検定で、受験資格の制限はなく、誰でも受験可能です。

ディープラーニングG検定のシラバスは、以下の通りです。
*************
■人工知能(AI)とは(人工知能の定義)

■人工知能をめぐる動向
探索・推論、知識表現、機械学習、深層学習

■人工知能分野の問題
トイプロブレム、フレーム問題、弱いAI、強いAI、身体性、シンボルグラウンディング問題、特徴量設計、チューリングテスト、シンギュラリティ

■機械学習の具体的手法
代表的な手法、データの扱い、応用

■ディープラーニングの概要
ニューラルネットワークとディープラーニング、既存のニューラルネットワークにおける問題、ディープラーニングのアプローチ、CPU と GPU
ディープラーニングにおけるデータ量

■ディープラーニングの手法
活性化関数、学習率の最適化、更なるテクニック、CNN、RNN
深層強化学習、深層生成モデル

■ディープラーニングの研究分野
画像認識、自然言語処理、音声処理、ロボティクス (強化学習)、マルチモーダル

■ディープラーニングの応用に向けて
産業への応用、法律、倫理、現行の議論
*************

G検定はとにかく公式問題集を2周くらい解いてよく復習することが重要です。勉強時間は2~3週間1日2時間(計30時間くらい)程度必要だと思います。
勉強方法ですが、下記3冊(公式テキスト、公式問題集、AI白書)を用意することを推奨します。まずは公式テキストを1周してください。その後、テキストを復習しながら公式問題集を2周し、最後はAI白書で最新のAI事情を把握してください。







いかがでしたでしょうか?複雑な計算などの問題はなく、受験資格の制限もないので、AIやディープラーニングに関連する業務を行っている方、これから行う方、それらに興味がある方はぜひ受けてほしい資格です。

よろしければシェアお願いします。






ウェブ解析士の合格体験記

イメージ
今回、ウェブ解析士とはどんな資格か、どのように勉強すれば取得できるか解説します。
ウェブ解析士とは、アクセス解析などウェブマーケティングに必要な知識を網羅的に学ぶための資格です。PCテストに合格し、レポートも合格すると資格を取得できます。
このウェブ解析士は他とは一風異なった面白い資格です。
まず、検定の開催の頻度が多くて手軽に受験できることが挙げられます。年に1回しか開催されない資格が多い中、この資格は月に数回受験できるほど開催されています。
そして、合格後のアフターフォローに関し、全国のウェブ解析士のネットワークを活用でき、勉強会などがある一方で、更新のための年会費と年1回のテストが要求されます。
多くの資格とは異なり、合格した後のつながりが強く、より実務に役立つ知識を学べるのが特徴です。また、Google Analyticsなど学ぶことができ、実務に活かしやすい知識をつけることができます。ただ、取得するだけで活用しなければコスパがよくないので、資格ハンターの方などにはあまり向いていない資格であると言えます。

この資格を取得するのに、自身は1カ月間1日2時間程度の勉強を要しました。出題範囲が広く人によって取得するための勉強時間にばらつきがあるので、かなり早めにテキストで出題範囲を把握し、自身に必要な勉強時間を考えて逆算することが大事です。
自身は公式テキストを2周解いた後、公式問題集を解いて丁寧に復習を行って合格することができました。意外と時間が足りないので、時間を測って時間を意識して問題集を解いていくことが重要になります。




いかかでしたでしょうか?
個人的には、ウェブマーケティングの常務をしている方にはぜひ取得してもらいたい資格です。HPやブログを運営している方にもおすすめです。

よろしければシェアお願いします。







バイアスとは?

イメージ
今回、統計学の考え方で最も大切な言葉のひとつである「バイアス」について説明します。
バイアスとは、日本語でいう偏見であり、偏った手法や意見という意味です。バイアスはデータ分析を行う上で、よく問題となります。多くのバイアスがありますが、今回5つのバイアスについて紹介します。

①サンプリングバイアス
「結果を調べたい対象(母集団)」と「アンケートを取る対象(標本)」がちぐはぐになっていることで生じます。Webアンケートでよく問題視されます。

「最新の現場の意見を知りたいのに、OBOGの意見を混ぜるアンケートはサンプリングバイアスが入ってて意味ないでしょ。」
「美大の友達だけに聞いたサンプリングバイアスしかないアンケート結果から、絵画に対する日本全体の消費量や適切なマーケティングは行えない。」

②確証バイアス
自分の都合のよい結果のみ集め、思い込みや先入観を強めることです。自社に都合の良いデータしか示さない営業や、ライバルの悪い情報だけを流す人が使う方法です。悪気もなく使っている人も多いので、注意が必要です。

「この前プレゼンされた案件は、メリットしか語られておらず、確証バイアスが入っている」
「君が悪くいってた人は意外にいい人だった。君に聞いた話は確証バイアスが入っていたよ。」

③後知恵バイアス
結果から予測できたことを考えることです。物事が起こった後にしか意見を言えない評論家は後知恵バイアスがかかっていると言えます。データ分析もPDCAを回し、得られた結果から分析した後に、次の施策や予測、考察に活かさないとあまり意味がありません。

「あの場面で選手交代をしたから負けた、といってるがそれは後知恵バイアス」

④多数派同調バイアス
多数派の意見に合わせればよいという、赤信号皆で渡れば怖くないってやつです。多数派が間違っていることは意外と多いと僕は思ってます。「家事は外注すべきではない」、「都内は家賃が高いから郊外から通勤した方がよい」、「外食は不健康だから自炊すべき」、「朝9時から夕方17時までがコアタイム」、「学校や会社に通わないといけない」、「公務員や大企業は安定している」... これらの意見は日本で多数派ですが本当に正しいのでしょうか。

⑤思い込みバイアス
すでに自分の中にある先入観で判断することです。過去の経験から主観的に物事を判断することです。成功者が特に陥りやすいバイ…

グラフの使い分け

イメージ
今回、グラフの使い分けに関して、説明していきます。
データ分析を行う際に、データからどのグラフで出すのがいいのか悩むことがあると思います。そのような疑問について説明していきます。今回、基本的なグラフ5つの使い分けを説明します。(縦棒グラフ、横棒グラフ、折れ線グラフ、円グラフ、散布図)


縦棒グラフ量を集計するときによく用いるグラフです。時間のデータ(時系列データ)ではなく、対象の名前(ラベル)が短いときに用います。名前の並びが特にない場合、数量が多い順に並べると綺麗です。アンケートで「その他」がある場合、一番右端に持ってくることが多いです。  2.横棒グラフ  縦棒グラフと同様に、量を集計するときに用いるグラフですが、こちらは対象の名前が長いときによく用いられます。
 3.折れ線グラフ 時間データを含むデータを扱うときに用います。対象が複数あるときは、色や線、点を変えると見やすくなります。 (下記のグラフは差を強調するために0で始まっていないので、そこは注意して読み取る。)  4.円グラフ 比率を見るときに用います。並びが決まっていないときは、その他を除いた比率の大きい順に書くことが多いです。  5.散布図 2つの項目(変数)の関係性(相関)を見るときに、用います。縦軸に結果に用いる項目(y:目的変数,被説明変数,従属変数などとよぶ)を置き、横軸に説明に用いる項目(x:説明変数,独立変数などとよぶ)を置きます。







以上、基本的な5つのグラフの使い分けを紹介しました。なんとなく使い分けを把握することができたでしょうか。
疑問点があれば、お気軽にご質問下さい。

※返信が遅くなる場合もありますが、ご了承ください。
よろしければシェアお願いします。






Python 3 エンジニア認定データ分析試験の合格体験記

イメージ
今回、Python 3 エンジニア認定データ分析試験の自身の経験をもとに、検定の概要と勉強方法について説明します。

まず、Python 3 エンジニア認定データ分析試験は、Pythonで統計や機械学習などのコードを把握する試験です。もし、機械学習や深層学習のプログラマーとしてのキャリアを築きたいと思っている方にはお勧めの検定です。CBT方式でなんども受験できるので、気軽に受験することができます。検定のHPでは以下のように記載されています。
試験名称:Python 3 エンジニア認定データ分析試験 概要:Pythonを使ったデータ分析の基礎や方法を問う試験 受験料金:1万円(外税) 学割5千円(外税) 問題数:40問(すべて選択問題) 合格ライン:正答率70% 出題範囲:主教材である翔泳社「Pythonによるあたらしいデータ分析の教科書」より以下の範囲と割合で出題する予定です。 章節問題数問題割合1データエンジニアの役割25.00%2Pythonと環境1実行環境構築12.50%2Pythonの基礎37.50%3Jupyter Notebook12.50%3数学の基礎

統計調査士の合格体験記

イメージ
今回は、統計調査士とはどんな検定か、また取得に向けた勉強方法について書いていきます。
統計調査士は統計検定が行っている検定で、CBT方式と年に一回の試験が実施されており、統計検定のHPにて、以下のような記載があります。
統計調査士検定は、公的統計に関する基本的な知識を正確に認識し、公的統計を適切に利用する能力を評価する検定試験です。
統計調査士に合格することは、統計の役割、統計法規、公的統計が作成される仕組み等に加えて、主要な公的統計データの利活用方法に関する正確な理解を証するものです。合格することで、
(ア)取得する過程で有用な知識を体系的に整理して獲得できる、
(イ)自信と誇りを持って統計調査業務に取り組める、
(ウ) 公的統計に係る知識と能力が客観的に評価される
ため、就業において、とりわけ民間調査機関で優先的に採用されやすくなる 等の効果が期待されます。
統計検定3級合格程度の基礎知識に加えて、社会人に求められる公的統計の理解とその活用力の修得を評価します。
■統計の基礎
・統計の役割
・統計法規
■統計調査の実際
・統計と統計調査の基本的知識
■公的統計の見方と利用




出典:統計検定 つまり、統計調査士を取得することで統計スキルの証明の一つとなり、就職や転職で有利になることがあるということです。

では、実際に自身が行った勉強方法について説明していきます。
この検定では、いきなり下記の問題集を解きました。もちろん、わからないところも多かったのですが、調査の決まり事、調査の流れを覚えることが大切であるため、1年分解いた後にネット検索しながら暗記できるまでしっかりと復習して進めていきました。
統計を勉強したことがない方は後述の統計入門をまず勉強することをお勧めします。
自身は元々、統計検定2級を取った後に統計調査士を取ったため、数値やグラフではヒストグラムの書き方以外は大方対応できました。(カテゴリ範囲が同じ間隔でないヒストグラムに関しては、面積で考えるという設問は2級にありませんでした。)



いきなり問題集を解くことに抵抗がある方は、下記のコンテンツを勉強するとよいと思います。


また、統計を学習したことがない方は、数値やグラフの問題を解くために、統計の入門本を一度勉強した後に、統計調査士の問題集を解く流れがよいかと思います。



以上の対策で、統計調査士の対策は十分でした。統計検定2級を先に…

JDLA認定ディープラーニングE検定の合格体験記

イメージ
今回は、JDLA認定ディープラーニングE検定とはどんな検定か、また取得に向けた勉強方法について書いていきます。

JDLA認定ディープラーニング検定は、「G検定」と「E検定」があります。「G検定」はGeneralist(ゼネラリスト)検定であり、ディープラーニングの知識全般を聞く検定で、受験資格の制限はなく、誰でも受験可能です。「E検定」はEngineer(エンジニア)検定であり、受験資格はJDLA認定プログラムの受講を終了した人です。そのため、E検定を取得するには、認定プログラムを受講する必要があります。

ディープラーニングE検定のシラバスは、以下の通りです。
*************
■応用数学
線形代数
確率・統計
情報理論

■機械学習
機械学習の基礎
実用的な方法論

■深層学習
順伝播型ネットワーク
深層モデルのための正則化
深層モデルのための最適化
畳み込みネットワーク
回帰結合型ニューラルネットワークと再帰的ネットワーク
生成モデル
強化学習
深層学習の適応方法
*************

G検定と異なり、計算やコードに関する問題が多く出題されます。しかし、まずはG検定のテキストを使ってディープラーニングの概要を把握したうえで、勉強を進めていくことをお勧めします。





一通り、ディープラーニングの概要をつかんだら、Pythonコードを勉強しましょう。僕は「Pythonによるあたらしいデータ分析の教科書」 、「新しい東京大学のデータサイエンティスト育成講座」を使ってPythonコードを書いて勉強しました。2冊ともAIプログラミング初心者でもわかりやすくおススメです。Numpyのコードが多く出題されるので、活性化関数などのコードをどんどん覚えていきましょう。





ディープラーニング概要、Pythonコードの勉強が終わったら、残りはひたすら認定プログラムの模擬問題などを解いていきましょう。線形代数などはネットに解放が載っているので、それらも参考にひたすら解きました。元々、AIプログラミング実務を行っている方はそんなに難易度が高くない試験だとは思いますが、自身のようなAI業務未経験者にとっては非常に難しい試験だと感じました。未経験者の方は線形代数とPythonコードの勉強を特に力を入れて行う必要があると思いました。
それぞれの問題は難しいですが、正答率は6割程度で大…

データ分析実務スキル検定(プロジェクトマネージャー級)合格体験記

イメージ
本日、データ分析実務スキル検定の合格体験談と合格への勉強方法を書きます!
この検定は、2020年2月25日より始まった新しい検定です。
データ分析実務者としての総合力を問うような検定になっています。
内容は、データの前処理・集計・R・Python・統計・SQL・機械学習・データからのKPI設定・施策の評価と効果検証などがあります。

結論から言うと、一つ一つ問題はその分野を勉強している人からすると難しくありませんが、とにかく出題範囲が広くて時間が足りないので、難しい検定であるのは間違いありません。おそらく知識があまりない人が受験しても受かることはないと思いますし、一度落ちると6カ月再受験できないのでご注意ください。だからこそ、付け焼刃では受からない実務スキルを証明できる貴重な検定になりうると思っています。上記の内容の2分野くらい詳しい人でも3カ月程度の勉強が必要であると思います。

それでは各分野の勉強方法について、解説します。

■データ前処理・集計
この分野は、Excelでのデータハンドリング力が問われます。ピボットテーブル、フィルター、Excel関数などを問題なく扱えないといけません。この分野はExcelを使って、業務データなどをひたすらいじり倒すことが最も効果の高い対策です。

■R・統計
Rのスクリプトに関する問題が出題されます。Rを知っている程度の人では解けないので、テキストを用いて実際にコードを書いて動かして勉強するしかありません。おススメは、「R統計解析パーフェクトマスター」です。この本で統計の勉強も兼ねます。


■Python・機械学習
Pythonのコードに関する問題が出題されます。これもRと同様に、テキストを用いて実際にコードを書いて動かして勉強するしかありません。おススメは、「R統計解析パーフェクトマスター」です。この本で機械学習の勉強も兼ねます。


■SQL
SQLのコードに関する問題が出題されます。これも実際にSQLを書いて覚えるしかありません。今回は以下のテキストを用いて勉強しました。


■データからのKPI設定・施策の評価と効果検証
データ分析をした結果からどのような施策を実行するべきか、どのようにKPIを設定すべきかなどを問われます。この内容に近いのは、ウェブ解析士のテキストです。



以上のように、広い範囲を網羅的に勉強していく必要があります。ただ…