現役のデータエンジニアがレクチャーします!
AIや機械学習を行う際に最も時間のかかる作業は、データの準備とそれらの管理です。これらの作業のことをデータエンジニアリングと呼びます。実に80%以上の時間をデータエンジニアリング(データサイエンスのための前処理やメタデータ管理)に割いてるのが現状です。
本コースではSparkを使ったデータエンジニアリングにおけるデータ品質管理について学びます。
データ品質を担保しなければデータ組織のデータ活用の生産性低下は免れません。
本コースを受講してデータを管理するという新たな方向へと舵を切りましょう。
データ品質管理とは、データ活用の生産性を高めるためのデータを資産と考えるプロセスの一つです。
データはゴミ箱に捨てるようにただ「データレイク」や「データウェアハウス」に保存しておけばいいだけではなく、
-
データは想定通りの状態か?
-
想定通りでない場合にはどのようなアクションを起こすべきなのか?
と言った一連の流れを管理することにあります。
ポイント:
PySparkを使いながら以下のデータ品質項目について算出を行う実践講座です。
-
一貫性
-
正確性
-
完全性
-
適時性
-
ユニーク性
-
有効性
特徴:
-
データエンジニアリングよりの講座です。
-
難しいいサイエンスや数学は出てきませんが、データの3職種のうちの一つである「データエンジニア」のためのコースです。
-
普段Pythonを使っている方やこれからAIやビッグデータの分野にエンジニアとして参画してデータを自在に操りたいという方にはぴったりです
-
データ品質を管理して、データ分析という行為にさらに付加価値を加えたい方
ソースコードや解説は以下のGitHubリポジトリにあります。
動画内ではGitHubの資料に加え補足をしながら解説を進めています。