Learning Course is designed to support learners. When you make a purchase through one of our links, we may receive an affiliate commission.

【PythonとSparkで始めるデータマネジメント入門】 ビッグデータレイクのための統合メタデータ管理入門

Overview

現役のデータエンジニアがレクチャーします!

AIや機械学習を行う際に最も時間のかかる作業は、データの準備とそれらの管理です。これらの作業のことをデータエンジニアリングと呼びます。実に80%以上の時間をデータエンジニアリング(データサイエンスのための前処理やメタデータ管理)に割いてるのが現状です。

本コースではSparkを使ったデータエンジニアリングにおけるメタデータ管理について学びます。

メタデータを管理しなければデータ組織の生産性低下は免れません。

本コースを受講してデータを管理するという新たな方向へと舵を切りましょう。

メタデータ管理とは、データ活用の生産性を高めるためのデータの設計書です。

データはゴミ箱に捨てるようにただ「データレイク」や「データウェアハウス」に保存しておけばいいだけではなく、

  • データがどこにあるのか?

  • データはどのような状態なのか?

  • データの意味合いはどのような意味なのか?

  • データは誰にアクセスされているのか?

  • データは何回アクセスされているのか?

といったいわゆるメタデータをしっかりと管理することにあります。

本コースは3種のメタデータ(下記ポイント参照)について、入門として一つのテーブルをもとにPySparkを用いて算出しMysql保存していく実践講座です。

また保存するだけでなく、保存したメタデータの活用方法についても言及しています。

ポイント:

PySparkを使いながら以下の取得や算出を行います。

ビジネスメタデータ:テーブル定義や、テーブルの説明など、データ利用をするのに必要なメタデータ管理を勉強します。

テクニカルメタデータ:データプロファイリングを通した、データを検索せずともデータの特性をわかるようにするための方法を学びます

オペレーショナルメタデータ:Sparkのアクセスログの解析を行い、データに関する5w1hを引き出します。

いづれの情報もPysparkなどを使いながら算出していきます。

「データサイエンスのための前処理入門PythonとSparkで学ぶビッグデータエンジニアリング(PySpark) 速習講座」を受講していると内容の理解がよりスムーズかと思います。

特徴:

  1. データエンジニアリングよりの講座です。

  2. 難しいいサイエンスや数学は出てきませんが、データの3職種のうちの一つである「データエンジニア」のためのコースです。

  3. 普段Pythonを使っている方やこれからAIやビッグデータの分野にエンジニアとして参画してデータを自在に操りたいという方にはぴったりです

  4. メタデータを管理して、データ分析という行為にさらに付加価値を加えたい方

ソースコードや解説は以下のGitHubリポジトリにあります。

動画内ではGitHubの資料に加え補足をしながら解説を進めています。

【PythonとSparkで始めるデータマネジメント入門】 ビッグデータレイクのための統合メタデータ管理入門

Reviews

John Doe
John Doe@username
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec ullamcorper mattis, pulvinar dapibus leo.
John Doe
John Doe@username
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec ullamcorper mattis, pulvinar dapibus leo.
John Doe
John Doe@username
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec ullamcorper mattis, pulvinar dapibus leo.
Scroll to Top