Loading [MathJax]/extensions/tex2jax.js

Foundations of Data Science – Coursera

Computer

引き続き、Coursera でデータサイエンスの基礎講座を受けていきます。

実はこれ、”Get Started with Python” のコースとともに、 “Google Advanced Data Analytics Certificate”の一部、ということを受講し始めて知りました。ぼちぼちやっていきます。

Module 1: Introduction to data science concepts

What is data science vs. data analytics?
データサイエンスとデータ分析の違いとは?

Data science:

  • データに対してどのような問題を問いうるのか広く考える
  • より発展的なテクニックを用いて、未来への予測を立てるため未知のデータを取り扱う

Data analytics:

  • 問われた問題を解決することに重きをおく
  • すでにある問いに対して、どのような対応策が適用できるのかを決定する

Data science の方が、より学術的というか根源的ですね、対して、Data analytics は、もっと応用的で、ビジネス寄りの概念であると言えます。

ただし、この二つの用語は、しばしばデータ分析の文脈では可換なものとして言及される傾向にあります。

こちらのコース、概要についてのガイダンスがあったのち、データサイエンスの基礎知識について、理解度テストがあります。80% 以下の正答率だと、 “Google Data Analytics Professional Certificate” の受講をおすすめされますけど、まぁそのまま進んでしまっても大丈夫でしょう。

Module 2: The impact of data today

モジュール2は、データ分析以外でも必要な、コミュニケーションスキルなどにも言及されてます。とりあえず、一般的な内容が多いので、よくわかんなかった言葉のメモを残すぐらいにしておきます。

Hackathon:
A hackathon is an event where data professionals and programmers come together and collaborate on a particular project. The goal is to create a solution to an existing problem using technology.
ハッカソンとは、データプロフェッショナルやプログラマが(しばしばデザイナーなども)共同で、特定のプロジェクトに取り組むイベント。その目標は、テクノロジを用いて実際の問題に対するソリューションを生み出すこと。

coachable:
capable of being easily taught and trained to do something better

Britannica Dictionary – coachable

“coachable” は、「指導されることが可能」なのであって「指導ができる」って意味ではないので注意。

For example, a database of donations to a food bank could help the organization determine specific food items being collected and inventory the expiration dates of food items for shelving, cycling, and distribution.

to make a detailed list of things, or to include something in a list like this:
inventory

Cambridge Dictionary – inventory

to go through or repeat a cycle (= a series of events that happen in the same order one after the other, and are often repeated):
cycle

Cambridge Dictionary – cycle

“inventory” が「在庫」という意味ではなく、「リストを作成する」って意味で使われてるのは面白いですね。初めて見ました。

ここで、”cycling” は、”shelving” と “distribution” の間にあるので、「品物のローテーション」って意味ですかね。保管して、ローテーションして、配布される、って文脈かなと。

Using data analysis, this organization guides restorative efforts in underserved communities.

not provided with enough help or services, or not given services that are of high quality:
underserved

Cambridge Dictionary – underserved

No matter what your level of data analytics experience, working with nonprofits and hackathons can be a rewarding side project, or even a philanthropic career option.

helping poor people, especially by giving them money
philanthropic

Cambridge Dictionary – philanthropic

Data anonymization is the process of protecting people’s private or sensitive data by eliminating PII. Typically, data anonymization involves blanking, hashing, or masking personal information, often by using fixed-length codes to represent data columns, or hiding data with altered values.
データの匿名化とは、対象となる人のプライバシーや秘匿すべきデータをPII (Personally Identifiable Information) から取り除くプロセスのことです。一般的には、個人情報に対して、空白の挿入やハッシュ化、マスキングなどが行われます。これには、よく固定長の符号(アスタリスクとかが多いですね)をデータ列に挿入したり、代替え値でデータを隠したり、といった手段が取られます。

They allow their organizations to keep a finger on the pulse of what’s going on in the business, interpreting and translating key information into visualizations such as graphs and charts, allowing every stakeholder to understand their findings.

この文中にある、”keep a finger on the pulse of” は面白い表現ですね。英英辞書にはこのように定義されています。

to be/stay familiar with the most recent changes or improvements:

Cambridge Dictionary – have/keep your finger on the pulse

ちょっと気になったので、語源を調べてみたところ、文字通りの意味、だそうで。こんな説明がありました。

This expression comes from the literal meaning. If a person has his or her finger on one’s pulse, he or she has knowledge of one’s heartbeat.

“the pulse” っていうのは、自分の心臓の鼓動のことですね。

RACI is an acronym that comes from four classifications of involvement: Responsible, Accountable, Consulted, and Informed. The RACI matrix is one of many ways that companies organize roles and responsibilities.

RACI とは、それぞれ:

  • Responsible:タスクの実行に責任を負う
  • Accountable:タスクの実行を承認する。だいたいマネージャとか
  • Consulted:タスクに情報を提供する。
  • Informed:結果に対するインサイトを理解する。詳細よりも概要について

Module 3: Your career as a data professional

初っ端から面白い表現あったので、メモです。

As my career progressed, I began to think a lot about the why of data, because I took it for granted that data’s pretty.

to believe something to be the truth without even thinking about it:

Cambridge Dictionary – take something for granted

So it’s reasonable to expect labor that extracts business value from it to be able to earn its keep.

to earn what is needed to support oneself:

Merriam-Webster Dictionary – earn one’s keep

意外と、Gemini とか chatGPT のことにまで言及されていたので、びっくりです。まだ、世に出てから2年弱しか経ってないんですけど、この辺りの更新速度というか、どんどん発展していく感じが、やっぱり英語使えた方が生きてく上で便利ですね。と再認識です。

ここでは、あまり深い技術的な部分までは説明してありませんでしたが、LLM (Large Language Model) というモデルが利用されていて、文章中の語と語の関係性から、次に来る(穴埋めとか)単語を予測する機能を持つ、って特性までしっかり解説されてました。現行のテキスト生成系AIの基本的かつ重要なポイントですね。

EDA (Exploratory data analysis) : 探索的データ分析。データの分析の解析初期に推奨されるアプローチ。モデルありきではなく、データそのものがどのような特性を持っているのかを詳しく調査する。

LLM を利用する際の注意点と、能力の限界は以下:

  • LLM is not infallible.:失敗しないわけじゃない
  • LLM is not an expert in any particular field.:どんな領域でもエキスパートってわけじゃない
  • LLM cannot explain its reasoning.:根拠を説明できない
  • LLM can be biased.:バイアスがかかることがある

この辺りの LLM の限界は、使ってみればわかることですが、割と Hallucinations(嘘の情報)を出力することがあります。個人的には、特に一般的ではない(情報が少ない)事柄について出力されることが多いかな?と思います。

根拠を説明できないって点と、バイアスがかかってしまうことがあるのは、LLM の仕組み上どうしようもないことかと、なんなら人間でもそういう時ありますよね。

データプロフェッショナルのみに限定せず、job interview(面接)の際によく聞かれる質問の類型:

  • Behavioral questions:過去にどのようなことを行なったか?問題にどのように対処したか?
  • Technical questions:データサイエンスであれば、R やPython に関する技術的な質問など
  • Situational questions:シチュエーションを仮定し、それに対するアプローチについての質問
  • Subject questions:特定のテーマ(業界内での立ち位置など)に基づいた質問

Module 4: Data applications and workflow

データ分析のフレームワークとして、PACE model がある。

  • Plan:プロジェクトのスコープやワークフローを定義する
  • Analyze:データを収集し、クリーニングし、変換する
  • Construct:アプローチするモデルを決めたり、モデル自体を構築する
  • Execute:ステークホルダーにインサイトを伝達し、フィードバックを得る

P A C E それぞれのステージを繋ぐのが、コミュニケーションとなる。これら全てが繋がって、連続したサイクルとして回せるのがベストな運用。

実際にデータ分析の業務の中で行われるコミュニケーションを想定した、メール作成のロールプレイがあります。具体的には、ある課題を解決するチームの一員として、自組織の内部ステークホルダに対して適切に情報を伝達する文面を作成するというもの。

特に、読み手はどのような情報を必要としていて、逆に読み手からどのような情報を得られるのかを考えながら文書を作成する必要があります。ロールプレイでは、データ分析スタッフと広報スタッフそれぞれにメールを作成するので、相手の立場を考えた適切な情報を選択しないといけません。

データ分析の領域では、分析チームやステークホルダとのコミュニケーションを支援するために、 Project proposal や Executive summary などの文書が利用される。

A project proposal can provide the structure and communication needed for tracking tasks.

Project proposal の主な目的は、目標や要求を定めること。これらを分解した、milestones がセグメントとして記載されることが多い。

Project proposal の構成要素:

  • Project title:簡潔で明瞭なタイトルにすることが望ましく。いつでも更新されうる
  • Project objectives:通常1〜3つ程度の、達成すべき目標
  • Milestones:管理可能なレベルまで分解したタスクのまとまり。プロジェクトのスケジューリングなどに資する。
  • Tasks:マイルストーンの構成要素
  • Outcomes:タスクを実行した結果
  • Deliverables:分析チームやステークホルダ間で共有される作業成果物。しばしばプロジェクトの最終結果になりうる。
  • Stakeholders:プロジェクトの進行に利害を有する人々やグループ。
  • Estimated time:プロジェクトやマイルストーンを完了するまでの見積もり時間。

A document called an executive summary is used to update decision makers who may not be directly involved in the tasks of a project.

Executive summary は、プロジェクトの最も重要な点を要約した文書のことで、ステークホルダの意思決定に有用な情報を提供する。

Executive summary の構成要素:

  • Project title:Project proposal と同様、簡潔かつ明瞭なものが望ましい
  • The problem:取り組むべき課題を明示する。しばしば、検証すべき仮説である場合もある
  • The solution:プロジェクトの最終的な到達内容を記述する
  • Details/Key insights:詳細や特筆すべきインサイトを記述する。「詳細内容」は読み手によって変化する
  • Next steps/Recommendations:次に取るべきステップ及び推奨事項について記述する。これらはいずれも含めることが望ましい

Module 5: Course 1 end-of-course project

最後のモジュールでは、データ分析業務の実践的なシュミレーショントレーニングを行うことができます。

Automatidata (架空の組織)、TikTok、Waze の3つのシナリオから好みのものを選んで実際にデータ分析担当者が作成するようなドキュメントを作ります。

先のモジュールでも学んだ PACEのワークフローを適用することで、それぞれのタスクを分類して整理する、ような感じの作業です。そこまで難しくないかなと思います。

では、引き続き “Google Advanced Data Analytics Certificate” の次のコースを受講していきます。

コメント

タイトルとURLをコピーしました