データの取得方法や結合方法をテーマにしたオンラインイベント
ダッシュボードをいざ構築しようと思っても、データの取得方法や結合方法でつまずかれている方は多いのではないでしょうか。イメージ通りのビジュアライズをするためには、大抵の場合いろいろデータを統合したり、組み合わせたりして作る必要があります。
第2回目となるOnline道場は、2020年5月22日に「ダッシュボード構築に欠かせないデータの取り方・つなぎ方のいろは(入門編)」として開催されました。同イベントではダッシュボード構築の一歩手前にあるデータ収集や、そのコツについて紹介しました。
本記事では同イベントの様子を、当日使用したスライドなどを交えながらレポートします。ウェビナーにご参加いただいた方は復習に利用していただき、当日ご参加いただけなかった方は本記事を参考にしていただけたら幸いです。
登壇者の紹介
アタラ合同会社 コンサルタント
宮崎 夏樹(パネリスト)
アタラ合同会社 コンサルタント
海生 怜(パネリスト)
アタラ合同会社 コンサルタント
寺本 桂(ファシリテーター)
導入編
導入編ではアタラ合同会社(以下、アタラ)の宮崎が、データの統合の必要性・データの取得方法・データの正規化について解説しました。
データ統合の必要性
そもそもなぜデータ統合が必要なのか。それは、昨今の企業では利用しているアプリケーションや媒体数が多く、各ツールそれぞれにデータがあるため、結果として企業が保有するデータは増えていく一方だからです。
なぜデータ収集・統合が必要か?
ツールやデータが増えていく中で、手動でデータを取得してまとめるのは手間がかかります。それ以外にも、複数のデータを統合してデータに意味を持たせることで有益なインサイトを得られる場合もあります。例えば広告データと顧客データを統合した結果、30代女性で小学生の子供がいる人の反応が良かったということが分かれば、そのターゲットに絞ったクリエイティブを作成できるといった具合です。
また、異なるデータを掛け合わせて分析しないと相関や因果関係が分からないことも、データ統合が必要な理由です。テレビCMの出稿量とSNS上での商品名を含む投稿数や、ウェブ広告出稿量と店舗の売上といった因果関係を見つけるには、データ収集・統合が不可欠です。
このようなデータ統合を手動で行う際はエクセルで処理する事が多いもののデータ量次第で固まったり、また大量のCSVデータを手動で処理しようとするとミスがつきものです。
また、BIツール/ダッシュボードにデータが集まれば比較的簡単にさまざまなグラフを作り可視化できますが、良いダッシュボードを作成するには、コンテキスト化が必須だと宮崎は強調しました。
コンテキスト化とはシンプルな情報を単純にそのまま出すのではなく、目標や、市場、競合、過去データと比較することで、情報の立ち位置をはっきりさせようというものです。例えば単に売上が105万円だったという報告だけでは、次の打ち手が不明ですが、目標達成度は何%といった情報(コンテキスト)があることによって、数値が意味を持ちます。
コンテキスト化する
コンテキスト化と同じく重要な要素として、アクショナブルであることが挙げられます。ただデータを視覚化するのではなく、それがアクションすべきかどうか判断できるように設計することで、ネクストアクションとして何をするべきなのかが分かりやすくなります。
アクショナブルに
データ取得方法の種類について
BIツール、ダッシュボードでのデータ取得方法は大きく分けて3種類あります。
① エクセルやCSVなどのファイル
② コネクター接続
③ API接続
エクセルやCSVなどのファイル
ファイルでのデータ取得で主に使われるのはエクセルやCSVです。コネクターやAPIがないツールでもCSVへのエクスポート機能はあります。まずはエクスポートしたデータを使ってダッシュボード化するのはよくあることです。
また、Googleデータポータルはエクセルファイルへの対応がなくCSVだけですが、TableauやDomoではエクセルにも対応しています。有料ツールと無料ツールの違いはデータ取得で使えるファイルの種類にも現れています。
コネクター接続
コネクター接続とはBIツール、ダッシュボードなど、データプラットフォームには必ず存在する、データへ接続するための機能です。例えばGoogleデータポータルにはGoogle 広告のコネクターがあるため簡単に接続し、データを取得できます。
コネクターは簡単に、かつ決まった時間に自動でデータ取得、更新できるのも良い点です。
API接続
API接続とは、コネクターにも使われている各アプリケーションからデータを取得する仕組みです。開発が必要なのでハードルが高く、手動でCSVをダウンロードして使うほうがAPI接続よりも安上がりな場合もあります。APIで提供されているデータはアプリケーション側の仕様に従うので、仕様が変わればデータ取得ができなくなり、継続的な維持管理のコストもかかります。
API接続でのデータ取得
データ正規化のガイドライン
データ正規化とは、データの整合性確保と重複をなくすためのルールに基づいてデータを加工することです。マーケティングデータは特に正規化の問題が生じやすいと言われています。
データの正規化の重要性
データのガイドライン
データのフォーマット
コネクターに対応してないデータを取り込む場合はCSV形式のデータが推奨されています。フォーマットを作る際は、以下の項目を意識することが重要です。
【CSVのフォーマット】
-
- カンマ区切り
- ヘッダ行有り
- 小計、合計行なし
- 日付、日時のフォーマットは西暦とし、漢字は含まない
YYYY-MM-DDまたはYYYY-MM-DD hh:mm:ss
- 「”」「,」「\」などのESCAPE方法はエクセルに準拠
- 文字コードはUTF-8(BOM無し)
- ファイル名も英語(英数字、スペースなし、拡張子あり)を推奨
データの型
ワイド型データとは、横並びに項目がどんどん増えていくタイプのデータのことです。このようなデータは加工、統計分析、可視化には向いていません。
一方、ロング型データは、データの蓄積に対しては行がどんどん下に下に追加される形で縦に伸びていきます。データの蓄積には向いおり、集計もしやすいため、BIツールやダッシュボードに適した形式となります。
表記ゆれ
表記の揺れとは、同じ意味を持つ言葉について表記が混在している状態を示します。日本語は表現方法が豊富な関係で表記ゆれが起きやすいため、全角か半角かなど、細かい点に留意が必要です。
IDの推奨
日本語の表記の揺れ問題もあるため、データを一意で区別してほかのデータと突き合わせるような場合はID同士で行うことが推奨されます。
データを紐付けるキー
IDなどを使ってほかのデータと紐付ける場合、データ同士を紐付けるための項目をキーといいます。プライマリーキーやユニークキーなどと呼んだりもします。キーはデータ内で重複していないことが条件です。データベース見るときに、どれがプライマリーキーなのかを理解しておくと、そのデータベースへの理解が深まります。
以下の記事では、ここまでに紹介した「ビジュアライズのためのデータ正規化のガイドライン」について詳述しています。
実践編
実践編では、「月の売上動向をグラフにしたいアタラさん」を例に挙げ、海生がデータの結合方法について紹介しました。
例題
3つのテーブルについて
実践編では、予算、実績、商品マスタの3つのテーブルを組み合わせて1つの予実テーブルを作成しました。バラバラに存在した3つのデータを結合することで、月別かつ商品別に売上目標額と売上実績額のデータが取得できるようになります。ビジュアライズした際には商品IDだけではなく、名称でも識別が可能な状態になります。
ここで浮上してくるのが、粒度の問題です。アタラさんの例では月別の売上目標を可視化したいのですが、実績テーブルでは日別データを取得しているため、実績テーブルに対して日別から月別への整形処理を行う必要があります。
日単位で入力されているデータを月単位に修正するためには、下図のオレンジと青の行が縦に積まれている状態のようにテーブル同士を縦積み(UNION)にする必要があります。ここまでが加工処理の第一ステージです。
「Union」で選択したテーブルを縦に結合する
予算テーブルと実績テーブルの粒度を合わせた後、いよいよ結合を行います。宮崎の話にもあった通り、結合にはキーが必要です。
予算テーブルに実績テーブルを紐付けるには、粒度を揃えた月頭日カラムと日付カラムがそれぞれキーになります。それに加えて商品IDもキーとして設定し結合します。続いてその商品IDに対して商品名を付与するために、商品IDをキーとして商品マスタと結合します。それらの結合を行うことで、下の予実テーブルが出来上がります。
実践編まとめ
実践編では例を用いて、データの粒度を合わせるにはどうするべきか、結合のためにはどんなキーが必要かが紹介されました。分散したデータを一つにしたい時は、データの粒度をあわせ、それぞれのデータを紐付けるためのIDを付与し、それを結合キーとすることが重要だと海生は結びました。
今回のウェビナーでは、ダッシュボード構築に欠かせないデータの取り方・つなぎ方の入門部分が紹介されました。皆さまのデータ活用、ダッシュボード活用の一助になれば幸いです。
今回寄せられた質問については、以下の記事にて回答しています。
次回のイベントは6月12日に開催予定の「企業が押さえておくべきBCP策定のためのダッシュボード」です。同回では「BCP策定」に焦点を当てたダッシュボードの作り方や、取得すべきデータについて紹介します。
また、これまでのセミナー動画は「Unyoo.jp YouTube公式チャンネル」でも公開中です。