【PythonとSparkで始めるデータマネジメント入門】 ビッグデータレイクのための統合メタデータ管理入門
現役のデータエンジニアがレクチャーします! AIや機械学習を行う際に最も時間のかかる作業は、データの準備とそれらの管理です。これらの作業のことをデータエンジニアリングと呼びます。実に80%以上の時間をデータエンジニアリング(データサイエンスのための前処理やメタデータ管理)に割いてるのが現状です。 本コースではSparkを使ったデータエンジニアリングにおけるメタデータ管理について学びます。 メタデータを管理しなければデータ組織の生産性低下は免れません。 本コースを受講してデータを管理するという新たな方向へと舵を切りましょう。 メタデータ管理とは、データ活用の生産性を高めるためのデータの設計書です。 データはゴミ箱に捨てるようにただ「データレイク」や「データウェアハウス」に保存しておけばいいだけではなく、 データがどこにあるのか? データはどのような状態なのか? データの意味合いはどのような意味なのか? データは誰にアクセスされているのか? データは何回アクセスされているのか? といったいわゆるメタデータをしっかりと管理することにあります。 本コースは3種のメタデータ(下記ポイント参照)について、入門として一つのテーブルをもとにPySparkを用いて算出しMysql保存していく実践講座です。 また保存するだけでなく、保存したメタデータの活用方法についても言及しています。 ポイント: PySparkを使いながら以下の取得や算出を行います。 ビジネスメタデータ:テーブル定義や、テーブルの説明など、データ利用をするのに必要なメタデータ管理を勉強します。 テクニカルメタデータ:データプロファイリングを通した、データを検索せずともデータの特性をわかるようにするための方法を学びます オペレーショナルメタデータ:Sparkのアクセスログの解析を行い、データに関する5w1hを引き出します。 いづれの情報もPysparkなどを使いながら算出していきます。 「データサイエンスのための前処理入門PythonとSparkで学ぶビッグデータエンジニアリング(PySpark) 速習講座」を受講していると内容の理解がよりスムーズかと思います。 特徴: データエンジニアリングよりの講座です。 難しいいサイエンスや数学は出てきませんが、データの3職種のうちの一つである「データエンジニア」のためのコースです。 普段Pythonを使っている方やこれからAIやビッグデータの分野にエンジニアとして参画してデータを自在に操りたいという方にはぴったりです メタデータを管理して、データ分析という行為にさらに付加価値を加えたい方 ソースコードや解説は以下のGitHubリポジトリにあります。 動画内ではGitHubの資料に加え補足をしながら解説を進めています。
【PythonとSparkで始めるデータマネジメント入門】 ビッグデータレイクのための統合メタデータ管理入門 Read More »