Coursera で Google Data Analytics Certificate のコースのメモ書き(と感想)です。
Courses
- 基礎知識
- データに基づいた意思決定
- データの準備
- データのクレンジング
- データ分析による答えの導出
- データビジュアライゼーション
- データ分析とR言語
- 総仕上げ、ケーススタディ
以上の8コースからなって、だいたい200時間ちょっとぐらいが履修の目安です。
Course 6, 7 のビジュアライゼーションとR言語が個人的に楽しみです。
Course 1: 基礎知識
まずは、基礎知識とデータアナリティクスに関連する各概念からです。
Data! Data! Data!.. I can’t make bricks without clay.
The Adventure of the Copper Beeches, Sherlock Holmes
データ、データ、データだよ! 粘土がなければレンガは作れない(ようにね)
初っ端から、シャーロックホームズの一節突っ込んでくるあたり、海外っぽさが出てます。ここでいう、粘土はデータで、レンガがそれに基づく結論の比喩です。こういう言い回しとっても好きです。
データ分析のプロセスは、以下の6つのステップからなる:
- 問いかけ:分析プロジェクトのゴールの定義
- 準備:計画と進捗管理、データの取得等
- 処理:データのクレンジング等
- 分析:ここでメインの分析
- 共有:結果についての可視化と伝達
- 行動:分析結果に基づく変化やアクションへの意思決定
データの有効活用に関するデータサイエンスという学問は以下3つの分野の総称:
- 機械学習:深実な状況下で、とにかくたくさんの意思決定を行いたい場合
- 統計:不確実な状況下で、いくつかの重大な意思決定を行いたい場合
- 分析:未知のものや今いる世界について理解したい場合
データサイエンティストとデータアナリストの違い:
- Data Scientist: ローデータを使って未知の事柄をモデル化し、理解するための新しい方法を生み出す人々
- Data Analyst: データソースからインサイトを作り出して、問題に対する答えを見つける人々
データ分析とデータアナリティクスの違い:
- Data Analysis: データを収集、変換、整理し結論や予測を導き出して、データに基づいた意思決定を行うこと
- Data Analytics: データサイエンス全般のこと。データを管理、使用する仕事から、それらに使われるツールや方法といったことも含む。
Subject-matter Expert: 内容領域専門家、データ分析によって解決すべき課題について多くのインサイトを有する人々
分析的思考の5つの側面:
- 可視化
- 戦略的
- 課題指向
- 相関性
- 大局指向及び詳細指向
分析スキルの5つの分類:
- 好奇心
- コンテキストの理解:情報の全体像における役割の理解
- 技術的思考:問題の分解
- データ設計:データの整理
- データ戦略:データ分析のリソースをプランニングする
データライフサイクルの6つのステージ:
- 計画
- 取得
- 管理
- 分析
- 保管
- 廃棄
データアナリストの使う主要なツール:
- スプレッドシート
- Microsoft Excel
- Google Sheets
- データベース&クエリ言語
- 可視化ツール
- Tableau
- Looker
- RStudio (R言語のIDE)
フローレンス・ナイチンゲールは、看護師であると同時にデータアナリストでもあった。ナイチンゲールのデータの可視化の話は有名。Scientific American
Wiki にも、ナイチンゲールの記事には、近代医療統計学と看護統計学の先駆け、と記載があります。
Course 1は基本的な概念についてなので、そこまで深く技術的な内容でもないです。ただし、抽象的なだけに、到達度の確認テストで回答に迷うことが多々あります。(どっちも言えるよね…みたいな)
Course 2: データに基づいた意思決定
構造化思考とは、以下からなるプロセス:
- 在起きている課題や状況を認識する
- 活用できる情報を整理する
- 生じているギャップや機会を明らかにする
- 考えうる選択肢を特定する
データアナリストの扱う課題は大きく6つに分類できる:
- 予測を立てる
- 物事を分類する
- 異常を見つける
- テーマを特定する
- 繋がりを発見する
- パターンを見つける
より良い問いかけのための SMART フレームワーク:
- Specific: 具体的
- Measurable: 測定可能
- Action-oriented: 行動指向
- Relevant: 関連がある
- Time-bound: 時間的制約がある
世界のデータの90%はこの数年内に生み出されたもの。
レポートは、組織のハイレベルなデータ推移のうち、一時的な瞬間のデータを共有するのに適している。
対して、ダッシュボードは、記録された情報により幅広くアクセスでき、フィルターを使ってデータを操作することもでき、動的であるため長期的に使うことができる。
ダッシュボードの目的ごとの類型:
- 戦略型:最も抽象度の高いレイヤーで、長期目標や戦略を目的としたもの
- 運用型:リアルタイムなパフォーマンスの追跡と、短期から中期の目標に焦点があるもの
- 分析型:最も詳細かつ複雑性の高いもの、主にデータアナリストによる分析に利用される
測定指標とは、測定指標は測定に使用する定量化可能なデータの種類のことで、通常は単純な計算を伴う。それに対して、データは事実の集合体のこと。
例えば、売上の情報は一つひとつがデータであり、担当者別や会計年度ごとに集計したものは、測定指標となる。
スモールデータ:短期間かつ明確に定義された期間における、特定の測定指標で構成されたデータセット。基本的に、スプレッドシート利用。
ビッグデータ:長期間にわたる大規模かつ特定性の低いデータセット。基本的にデータベース利用。
表計算ソフトのショートカットキーの操作は実は関数でもある。これは、知らない人多いみたいですね。自分も知らなかったです。
課題や問題を解決するに際して、重要となるのは、その定義をしっかりすること
If I had an hour to solve a problem, I’d spend 55 minutes thinking about the problem and 5 minutes thinking about solutions.
もし私が、問題解決のために1時間与えられたとしたら、55分を問題の考察に、5分を問題の解決に使うだろう。
– Albert Einstein
SOW: Statement of Work、作業範囲記述書、以下の要素からなる:
- 成果物:プロジェクトの成果
- タイムライン:マイルストーンと密接な関係、各ステップに掛かる時間
- マイルストーン:タイムラインと密接な関係、プロジェクトが一部完了したことを示すタイミング
- レポート:ステークホルダーに対する報告
データはコンテキストと対になっていなければほとんど意味を持たない。
ステークホルダーとの良好なコミュニケーションをとることが重要、以下の点に留意すると良い:
- 聞き手は誰か?
- 聞き手がすでに知っていることは何か?
- 聞き手が知りたいことは何か?
- 聞き手が知りたいことを伝えるための、最善の手段は何か?
Course 3: データの準備
観測データの類型は以下3つ:
- First-party data:個人またはグループが独自のリソースを使用して収集したデータ
- Second-party data:あるグループがユーザから収集して販売するデータ
- Third-party data:上記以外の第三者が収集したデータ
データの尺度:
- Ordinal scale:順序尺度、一定の順序を持つ質的データ
- Nominal scale:名義尺度、順序を持たず分類された質的データ
データモデリング:データがどのように組織化され、構造化されているかを可視化するプロセス。 この可視化したものがデータモデルと呼ばれる
データモデリングの3階層:
- 概念データモデル:データの組織全体での相互関係など、データ構造のハイレベルなモデル。技術的な要素は含まれない。ビジネスロジックに近い。
- 論理データモデル:リレーションシップ、アドリビュート、エンティティなど、技術的な詳細について焦点を当てる。ツールの分類や特性に近い。
- 物理データモデル:データベースがどのように機能するのかを示す。使用すべきエンティティとアトリビュートを定義する。具体的な(データベースなどの)ツールのイメージ。
データモデルの開発アプローチ:
- ERD: Entity Relationship Diagram
- UML: Unified Modeling Language
バイアスとは、言い換えると、データを収集しその意味を理解する際に影響を与えるもののこと。データバイアスの類型は以下:
- 観察者バイアス:人によって物事の観察結果が異なる傾向
- 認知バイアス:曖昧な状況を肯定的あるいは否定的に解釈してしまう傾向
- 確証バイアス:確認するような形で情報を探したり、解釈したりする傾向
- サンプリングバイアス:サンプリングをする際にある属性に偏ってしまう傾向
データ倫理の6つの側面:
- 所有権:ローデータを所有するのは個人
- 取引の透明性:データ処理に関するすべての処理とアルゴリズムが個人に提供される
- 同意:自分のデータが利用される目的と理由を知る権利
- カレンシー:自身の情報を利用されることによって発生する取引と規模の認識
- プライバシー:データ取引全てにおける対象者の情報と活動の保護
- オープンネス:データへの自由なアクセスや 使用、共有のこと
オープンデータの要件:
- 完全なデータセットとして一般公開されて、アクセスできること
- 再利用や再配布が可能な条件のもと、提供されていること
- あらゆる人がデータを利用し、再利用し、再配布できるような普遍性があること
メタデータとは、データに関するデータのことで、基本的には「誰が、何を、どこで、いつ、どのように、なぜ」といった情報を伝えるもの。主に以下の3種類がある:
- 構造メタデータ:データの分類や階層などの構造を示すデータ、本の章や部など
- 記述メタデータ:データの断片を説明し、識別するのに役立つデータ、本のISBNやタイトルなど
- 管理メタデータ:管理に必要なデータで、作成日時や種類など
Google Cloud の BigQuery を使うことで、SQLによるさまざまなデータの処理が可能
データセキュリティには主に、暗号化とトークン化がある。トークン化とは、保護したいデータ要素を「トークン」と呼ばれるランダムに生成されるデータで置き換える。元のデータは別の場所に保存され、トークンにマッピングされます。ハッシュ値によるマッピングみたいなもの?
Course 4: データのクレンジング
特に、「日付」のようなデータは国によって形式が違う場合があるので、取り扱いに注意が必要。
場合によっては、実データの代わりにプロキシデータと呼ばれる代理のデータを使うことができる。
A/Bテスト(またはスプリットテスト): 同じウェブページの2つのバリエーションをテストし、どちらのページがよりユーザーのトラフィックが多く、収益を上げるかを判断するもの。
誤差にかかわる用語:
- 信頼度:あるサンプルサイズが、より大きな母集団を正確に反映する確率
- 母集団:データ分析において、データセットに含まれるすべてのデータの値
- サンプル:母集団全体から抽出した一部のセグメント
- 誤差の範囲:サンプルの結果が実際の母集団の結果と異なることが許容される最大値
ダーティデータ:不完全、不正確、または解決すべき課題とは無関係なデータ
ダーティデータの種類:
- 重複したデータ
- 古いデータ
- 不完全なデータ
- 誤った/不正確なデータ
- 矛盾したデータ
CAST()関数で、文字列 -> FLOAT のようなキャストができる。
SELECT
CAST(column AS FLOAT64)
FROM
table_name
CONCAT()関数で、複数のカラムの文字列を結合することができる。
SELECT
CONCAT(column_1, column_2) AS new_name
FROM
table_name
COALESCE()関数で、 NULL値がある場合に代替え値を利用できる。
SELECT
COALESCE(column_1, column_2) AS new_name
FROM
table_name
PARフレームワーク:Problem, Action, Result、STARフレームワーク同様に、行動面接のシチュエーションで利用できる。
データアナリストのレジュメによく見られるソフトスキル:
- プレゼンテーションスキル
- コラボレーションスキル
- コミュニケーションスキル
- 調査スキル
- 課題解決スキル
- 適応力
- 細部に渡る注意力
Course 4 は、学習する内容は少なめでデータ完全性やダーティデータに関する知識のみでした。
反面、実際に表計算ソフトやSQLを使ったデータクレンジングやデータアナリスト関連職に就くためのレジュメの作成を実践するようなコンテンツが多めでした。
まとめ
とりあえず、あんまり長くなってもよろしくないので、Course 1 … Course 4 までで区切ります。
表計算ソフトは仕事でよく使うので特に目新しいことはなかったですが、SQLの便利さが際立つ講座内容でした。
引き続き、コースの後半に進みます。データビジュアライゼーションやR言語を早く触りたいですね。
コメント