データ品質が高いのは“集めすぎず不足ない”状態
「集めるデータ」はデータツリーで明確になっていますが、データツリーどおりに集めればよい、と言うわけでもありません。準備段階で作ったデータツリーが完璧であることは稀です。データを集めながらデータツリーを随時修正していきます。現状に則した海図を作り上げていきます。しかし、データ集めにはいくつかの落とし穴が待ち構えています。
私は何度も何度もデータ集めで失敗しました。たとえば、特定のデータにこだわり過ぎ他のデータを集めきれなかったり、興味本位でなんとなくデータを集めてしまったり、色々なことがありました。データの抜けモレは分析できることを制限し、集めすぎたデータは混乱をもたらします。自らデータの洪水に飛び込むようなものです。つらくなるだけです。データ品質が高いとは「足りなさ過ぎず集め過ぎない」ほどほどの状態です。
では、どのようにすればデータ品質が高まるのでしょうか?データツリーを眺めながら次の3つのポイントを意識すると良いでしょう。
- 先ずはセカンダリーデータから集める(次にプライマリーデータを集める)
- 集めたデータの素性を明らかにする(素性が明らかでないデータは捨てる)
- データは対で集める(分析時に比較できるようにするため)
この3つのポイントに注意することで、必要なデータを必要な粒度(データの細かさ)で集めつつ、データツリーを随時修正していくことができます。
次のページから、それぞれについて説明していきます。