SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

おすすめのイベント

おすすめの講座

データ分析の質を高める5ステップ

データ品質を高めるには“集め過ぎず不足なく”

第3回

  • Facebook
  • Twitter
  • Pocket

データ品質が高いのは“集めすぎず不足ない”状態

データの質を高めるサイクル図1:データの質を高めるサイクル

 「集めるデータ」はデータツリーで明確になっていますが、データツリーどおりに集めればよい、と言うわけでもありません。準備段階で作ったデータツリーが完璧であることは稀です。データを集めながらデータツリーを随時修正していきます。現状に則した海図を作り上げていきます。しかし、データ集めにはいくつかの落とし穴が待ち構えています。

 私は何度も何度もデータ集めで失敗しました。たとえば、特定のデータにこだわり過ぎ他のデータを集めきれなかったり、興味本位でなんとなくデータを集めてしまったり、色々なことがありました。データの抜けモレは分析できることを制限し、集めすぎたデータは混乱をもたらします。自らデータの洪水に飛び込むようなものです。つらくなるだけです。データ品質が高いとは「足りなさ過ぎず集め過ぎない」ほどほどの状態です。

 では、どのようにすればデータ品質が高まるのでしょうか?データツリーを眺めながら次の3つのポイントを意識すると良いでしょう。

  • 先ずはセカンダリーデータから集める(次にプライマリーデータを集める)
  • 集めたデータの素性を明らかにする(素性が明らかでないデータは捨てる)
  • データは対で集める(分析時に比較できるようにするため)

 この3つのポイントに注意することで、必要なデータを必要な粒度(データの細かさ)で集めつつ、データツリーを随時修正していくことができます。

 次のページから、それぞれについて説明していきます。

会員登録無料すると、続きをお読みいただけます

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

次のページ
先ずは“セカンダリーデータ”から始めよ

この記事は参考になりましたか?

  • Facebook
  • Twitter
  • Pocket
データ分析の質を高める5ステップ連載記事一覧

もっと読む

この記事の著者

高橋 威知郎(タカハシ イチロウ)

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

  • Facebook
  • Twitter
  • Pocket

Special Contents

PR

Job Board

PR

おすすめ

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング