Google Cloud Certified Professional Data Engineer の勉強法
※2021年1月6日
オンライン試験について追記しました。
こんにちは。データサイエンスチームの t2sy です。
2020年2月に Google Cloud Certified Professional Data Engineer を受験し合格しました。この記事では、試験対策として私が行った勉強法について紹介します。執筆時点 (2020年4月) の情報も一部含まれています。
Professional Data Engineer とは
「Google Cloud Certified Professional Data Engineer」 は以下の通り、主にデータ処理システムの設計、構築、運用を行うデータエンジニアや、機械学習モデルの活用、デプロイを行う機械学習エンジニアを対象とした試験です。
Professional Data Engineer は、データを収集、変換、公開して、データに基づいて意思決定できるようにします。Data Engineer には、セキュリティとコンプライアンス、スケーラビリティと効率性、信頼性と忠実性、柔軟性とポータビリティに特に重点を置いて、データ処理システムの設計、構築、運用化、保護、モニタリングを行う能力が必要です。また、既存の機械学習モデルの活用、デプロイ、継続的なトレーニングができなければなりません。
引用元: Professional Data Engineer 認定資格
Professional Data Engineer 試験では、以下の項目について出題・評価されます。各項目の詳細は認定試験ガイドで確認できます。
- データ処理システムの設計
- データ処理システムの構築と運用化
- 機械学習モデルの運用化
- ソリューションの品質保証
具体的には、データ処理システムを構成する以下のプロダクトや、Cloud IAM などクラウドのセキュリティに関する知識、AI Platform、AutoML、ML系API、さらに基礎的な機械学習の知識について出題されます。
- Google BigQuery
- Cloud Dataflow
- Cloud Dataproc
- Cloud Pub/Sub
- Cloud Composer
- Cloud Bigtable
- Cloud Spanner
オンライン試験
※2021年1月6日
オンライン試験について追記しました。
2021年1月現在、以下の試験について日本語での遠隔監視オンライン試験に対応しています。
- Professional Data Engineer
- Associate Cloud Engineer
- Professional Cloud Architect
- Professional Collaboration Engineer
遠隔監視オンライン試験の受験時には、システム要件や部屋の環境などに決まりがあるので、事前に確認した上で予約を行ってください。
詳細は遠隔監視試験の詳細をご確認ください。
勉強法について
Professional Data Engineer 試験の対策として私が行った勉強法について紹介します。
模擬試験
Google から模擬試験が提供されており、無料で何度も受けることが可能です。勉強を始める前に受け問題の傾向を把握しておくことをお勧めします。間違えた問題について、関連プロダクトのドキュメントを重点的に調べ、理解を深めることは有効な対策かと思います。
Linux Academy
Linux Academy の Google Cloud Certified Professional Data Engineer コースを受講しました。Linux Academy の言語は英語で、個人向けの利用料金は $49/月 です。全ての講義動画を視聴したわけではありませんが、Practice Exam / Quiz は良質な問題も多く2回受けました。
公式ドキュメント/チュートリアル
Google Cloud の各プロダクトには豊富なドキュメントとチュートリアルが用意されています。ドキュメントは最も信頼性の高い情報源です。また、チュートリアルを通して、実際にプロダクトに触れることで、その後ドキュメントを読む際にもイメージが湧き内容が理解し易くなると思います。私は試験前に Cloud Dataflow、Cloud Pub/Sub、AI Platform のチュートリアルを行いました。
『スケーラブルデータサイエンス』
『スケーラブルデータサイエンス データエンジニアのための実践Google Cloud Platform』の原著は Google の Valliappa Lakshmanan 氏による『Data Science on the Google Cloud Platform Implementing End-to-End Real-Time Data Pipelines: From Ingest to Machine Learning』です。
本書では、Google Cloud Platform のプロダクトを用いてスケーラブルなデータ分析パイプラインを構築する例が紹介されています。本書を通じて、日々刻々と生成されるデータをリアルタイムに取り込み、加工・可視化・予測を行うまでの一連の分析パイプラインにおける各ステージの勘所を抑えることができます。試験対策としても、各プロダクトのユースケースを把握するのに役立ちました。
おわりに
この記事では、Google Cloud Certified Professional Data Engineer の勉強法について紹介しました。本試験では、機械学習の基礎的な内容についても出題がありました。仕事や学校などで機械学習に触れる機会がない方は、市販の入門書などで機械学習の基礎を抑えておくと良いと思います。
参考文献
[1] データ ライフサイクル
[2] Cloud Pub/Sub のチュートリアル
[3] Apache Beam と TensorFlow による機械学習
テックブログ新着情報のほか、AWSやGoogle Cloudに関するお役立ち情報を配信中!
Follow @twitter2016年11月、データサイエンティストとして中途入社。時系列分析や異常検知、情報推薦に特に興味があります。クロスバイク、映画鑑賞、猫が好き。
Recommends
こちらもおすすめ
-
BigQueryのMaterialized Viewについて
2024.6.14
-
CLI で覚える Google BigQuery
2020.1.30
-
【初心者向け】BigQueryって聞いたことあるけど、どんなサービス?
2023.12.22
-
エンジニアやりながら英会話を3か月本気で勉強してみた
2024.4.5
Special Topics
注目記事はこちら
データ分析入門
これから始めるBigQuery基礎知識
2024.02.28
AWSの料金が 10 %割引になる!
『AWSの請求代行リセールサービス』
2024.07.16