データプライバシー



今回はデータプライバシーについて説明します。
昨今、プライバシー保護やGDPRなど、データプライバシーについての議論が多くなされています。アンケートで、「このアンケートでは個人情報を十分に配慮し、個人を特定するようなことは致しません。」などの記載がよくありますが、本来データを読まないように頑張るのではなく、個人情報を収集・加工・分析する過程で適切なスキームで匿名化処理を施す設計を考える必要があります。日本では、個人情報保護法で守られているということは多くの方がご存知だと思いますが、匿名化データをうまく説明できますでしょうか。おそらく以前の自身と同じく、個人を特定することができない情報としか説明できない人が大部分であると思います。その匿名化データに関して具体的な説明を行います。

匿名化データとはざっくりいえば前述の通りですが、もっと具体的に言うと、データ(グループ)に含まれる全ての個人に関して、各個人と全く同じ属性データ(年齢・性別・学歴・職歴など)が自分以外にいるというものです(同じ属性の人が2人以上いたら、その回答が誰のものかわからない)。個人を特定できない属性データを収集するために、収集予定の標本グループを見て、柔軟に年齢⇒年代、出身校⇒学歴、社名⇒職種などデータを丸める(大きいカテゴリにする)必要があります。ただ、量的データを用いた分析を行いたいこともあるので、その際は収集時には細かくカテゴリし、大きいカテゴリに加工して最終結果を出すことはもちろん可能です。つまり、データ分析では一連の流れを考え、できるだけ上流の過程で匿名化処理を盛り込む必要があるということです。

また、多くの方が誤解していることとしては、属性データ以外のデータからも個人を特定できるということが抜け落ちていることです。属性データを隠したり、大まかにすれば完全な匿名化データになるということではありません(なる場合もありますが)。例えば、フリーコメントで、「私は2020年4月現在の日本の総理大臣です。」と書いてあったら安倍首相が特定されます。上記は大げさですが、「○○会社の第一営業部の部長」みたいな記載があれば特定できます。それ以外にも、利用の少ない(時間によっては1時間に一人程度)コンビニのEdy電子決済の利用履歴を見て、個人を特定するようなこともできます。インターネット、電子改札、スマホアプリのログイン履歴、出社退社履歴なども同様です。これをデータ収集側がきちんと匿名化することが重要になりますが、個人を特定できる身の回りにリスクが多く潜んでいることを我々が知っておく必要があります。

いかがでしょうか。個人情報保護はわかっているようで意外と意識できていないことがあります。GDPRなどに関してはまた別の回で説明しようと思います。

よろしければシェアお願いします。
このエントリーをはてなブックマークに追加  





コメント

このブログの人気の投稿

統計と、機械学習・深層学習(マシーンラーニング・ディープラーニング)の違いとは?

定量分析と定性分析の使い分け

データベースの意味と、構築する際の留意点