社会科学と自然科学の統計リテラシー



今回は、社会科学と自然科学の統計リテラシーの違いを説明します。自身が自然科学の学士~修士課程と社会科学の修士課程両方経験したので、その経験も交えて説明します。

結論から言いますと、社会科学研究者の方が統計レベルが総じて高いということが言えます。理由としては、社会科学の定量研究を行っている方は統計をツールとして使うことが必須だからです。自然科学の研究者のうち、「統計学」や「人口知能」、「データサイエンス」を勉強している研究者はものすごく詳しいですが、それ以外の多くの研究者は実験にリソースを集中していて、統計の知識があまりありません。一見、自然科学研究者の方が数字に強いという世間一般のイメージとは異なって違和感がある方もいると思いますが、両者の挙動は実はすごくリーズナブルです。それについて解説します。

まず、自然科学研究者は研究計画を立てた上でひたすら実験を行い、それぞれの専攻分野のフォーマットに沿ったまとめを行っていきます。仮説の構築や結果の考察をひたすら繰り返していく作業や実験に奔走し、結果のまとめ方に時間を割く余裕がない研究者がほとんどです(実験に割かれる時間が膨大で、実験助手のいない多くの研究者は余裕が全くないことがほとんど)。また、自然科学研究者は普段行っている「実験」は、実は統計的にすごく理想的な環境を作っています。Fisherの3原則というものがあり、「①ランダム化、②局所管理、③反復化」というのをコントロールできると統計的に信頼性が高いというものです(平たく言えば、条件を統一して均等に操作を行った実験を複数回行うということ)。実験は無意識のうちにこれらを満たすようにデザインされるので、統計的に信頼性の高いデータをあらかじめ集めることができています。

一方で、社会科学研究者は基本的に実験をせずに集まっているデータで研究を行うことがほとんどです。手抜きしているわけでは決してなく、理由は自然科学のように理想的な実験状況を作り出すことが困難だからです(片方の学生グループに質の高い授業をうけさせて、もう片方の学生グループを散歩だけさせておくような実験など、倫理的にできないケースや元々の条件を統一するのが難しいケースなど制約が多いから)。一部、RCTで実験を行うことはありますが、その場合は仮説設定を行い、あとは被験者にお願いすれば実験は勝手に進むので、自然科学のように時間を取られることがありません。そして、定量分析を行っている社会科学研究者は、実験より統計的に信頼性の低いデータを用いる必要があるため、統計をツールとして使いこなさないと論文が通りづらい傾向があると聞きます。

つまり、社会科学研究者の方が自然科学研究者より統計リテラシーが総じて高いのは、①統計ツールを使いこなすことが当たり前の土壌がある、②統計学を勉強する余裕があること、③統計的に最適な条件を作り出す「実験」を行うことが困難で、その分統計手法に頼らざる負えない、以上です。

自身が研究を行う上で参考にした本は以下です。




個人的な意見としては、自然科学研究者はもっと統計学を使いこなし、その分野の基本的な作法に沿った結果の見せ方以外のバリエーションを増やした方がよいかと思います。そうすれば自分が実験失敗と思っていた結果に対しても、思わぬ発見ができることが増えると思います。

よろしければシェアお願いします。
このエントリーをはてなブックマークに追加
 



コメント

このブログの人気の投稿

統計と、機械学習・深層学習(マシーンラーニング・ディープラーニング)の違いとは?

定量分析と定性分析の使い分け

データベースの意味と、構築する際の留意点