統計基礎②(記述統計)



今回は、記述統計を説明します。
統計学は大きく2つに分けると、記述統計と推測統計に分かれるという話を以前しました。
記述統計は以前説明した通り、簡単に言うと複数のデータから事実をまとめるというものです。では具体的に説明していきます。

①一つの変数(列、項目)の数値処理
平均値、中央値、最頻値、標準偏差、範囲など

平均値は、全データの数値を足したものを全データ数で割った数値です。平均値はよく使われる代表値ですが、外れ値(他の値と大きく離れた数値)があると、強く影響を受けてしまう傾向があります。中央値は、全データを数値順に並び替えて真ん中の並びの数値を代表値とします。全データ数が奇数だと真ん中の値を用い、偶数だと真ん中の2つに数値の平均をとります。最頻値は、一番出てきたことが多い数値を出します。標準偏差は、数値のバラつきを指します。範囲は、データの幅で最大値から最小値を引いたものです。

②二つの変数(列、項目)の数値処理
相関係数など

相関係数は、-1~1の間で2つの関連性を見ることです。-1以上0未満で負の相関(片方の変数が増えると、もう片方が減る)、0で無相関(関係性がない)、0超1以下で正の相関(片方の変数が増えると、もう片方も増える)になります。ただし、注意しないといけないのは、多くの相関係数が直線的な関係性しかみていないということです。このことを留意しておかないと、相関係数で結果を見誤ることがあります。これは別の機会で説明します。

③三つ以上の変数(列、項目)の数値処理
重相関係数、偏相関係数など

3つ以上の変数の相関係数や1つの変数に着目した相関係数などがあります。これは使う頻度がそんなに多くないので、別の機会で説明します。

④グラフ表現
ヒストグラム、散布図、クロス集計など

ヒストグラムは、1変数のデータの分布をみるグラフです。散布図は2変数の関係性を見る(データの分布をみる)グラフで、相関係数と一緒に用いることが多いです。クロス集計は、2変数以上の関係性を表にしたもので、それらの数を数えるものです。

いかがでしたでしょうか?それぞれの語句などは別の機会に深堀していこうと思います。

よろしければシェアお願いします。
このエントリーをはてなブックマークに追加
 



コメント

このブログの人気の投稿

統計と、機械学習・深層学習(マシーンラーニング・ディープラーニング)の違いとは?

定量分析と定性分析の使い分け

データベースの意味と、構築する際の留意点