データ品質を高めるには“集め過ぎず不足なく”

第3回

 適切なアクションにつながらないデータ分析は無価値です。「準備する」「集める」「分析する」「表現する」「伝える」の5つの品質が高いとき、適切なアクションが起こります。データは足りなさ過ぎず集め過ぎないのが理想です。今回は、データツリーを眺めながら「データ品質」(ステップ2:集める)を高める3つのポイント「セカンダリーデータから集める」「データの素性を明らかにする」「データは対で集める」について説明いたします。

[公開日]

[著] 高橋 威知郎

[タグ] データ・アナリティクス

  • このエントリーをはてなブックマークに追加

データ品質が高いのは“集めすぎず不足ない”状態

データの質を高めるサイクル図1:データの質を高めるサイクル

 「集めるデータ」はデータツリーで明確になっていますが、データツリーどおりに集めればよい、と言うわけでもありません。準備段階で作ったデータツリーが完璧であることは稀です。データを集めながらデータツリーを随時修正していきます。現状に則した海図を作り上げていきます。しかし、データ集めにはいくつかの落とし穴が待ち構えています。

 私は何度も何度もデータ集めで失敗しました。たとえば、特定のデータにこだわり過ぎ他のデータを集めきれなかったり、興味本位でなんとなくデータを集めてしまったり、色々なことがありました。データの抜けモレは分析できることを制限し、集めすぎたデータは混乱をもたらします。自らデータの洪水に飛び込むようなものです。つらくなるだけです。データ品質が高いとは「足りなさ過ぎず集め過ぎない」ほどほどの状態です。

 では、どのようにすればデータ品質が高まるのでしょうか?データツリーを眺めながら次の3つのポイントを意識すると良いでしょう。

  • 先ずはセカンダリーデータから集める(次にプライマリーデータを集める)
  • 集めたデータの素性を明らかにする(素性が明らかでないデータは捨てる)
  • データは対で集める(分析時に比較できるようにするため)

 この3つのポイントに注意することで、必要なデータを必要な粒度(データの細かさ)で集めつつ、データツリーを随時修正していくことができます。

 次のページから、それぞれについて説明していきます。

バックナンバー