3つのポイントを守ると「データ品質が高まる」
いかがだったでしょうか?
- 先ずはセカンダリーデータから集める(次にプライマリーデータを集める)
- 集めたデータの素性を明らかにする(素性が明らかでないデータは捨てる)
- データは対で集める(分析時に比較できるようにするため)
データ品質が高いとは「足りなさ過ぎず集め過ぎない」状態です。3つのポイントに注意することでデータ品質が高まります。先ずは「セカンダリーデータ」から集めることで幅広くデータを集める。その中で十分でないデータは「プライマリーデータ」として集める。そのデータを使うかどうかは「データの素性(前提条件)」を明確にすることでチェックする。データの抜けモレは「データツリー」を常に眺めつつ「対」を意識することで防ぐ。