【AWS Summit Japan 2022】最新の DWH およびデータレイク動向について(AWS-36)

AWS

2022.5.27

Topics

こんにちは。データサイエンスチームの t2sy です。
この記事では 5/25、5/26 に開催された AWS Summit Online 2022のセッション 「最新の DWH およびデータレイク動向について(AWS-36)」 についてレポートします。

セッション概要

タイトル

最新の DWH およびデータレイク動向について(AWS-36)

スピーカー

アマゾン ウェブ サービス ジャパン合同会社
AWS 技術統括本部 ソリューションアーキテクト 鈴木 浩之 さん

概要

生成されるデータ量は増え続け、データ分析のニーズも多様化が進んでいます。従来の方法でこれらの要件を全て満たそうとすると、システムやその管理は複雑化しがちですが、AWS の分析サービスではモダンデータ戦略というアプローチでこの課題に対する様々な解決策を提供しています。本セッションでは、Amazon Redshift を中心に、データレイクと連携した様々な目的別分析サービスを簡単に組み合わせて、それぞれの分析ニーズに最適化された方法で、誰でも簡単に分析に集中するための方法をご紹介します。

関連キーワード

Amazon Redshift, AWS Glue, AWS Lake Formation

レポート

モダンデータ戦略と目的別分析サービス

最初に、近年のデータ分析基盤における課題と、この課題を解決するためのモダンデータ戦略というアプローチについて紹介がありました。

日々生成されるデータ量は年々増加傾向 [1] にあり、データ分析により新たなビジネスチャンスを生み出している一方で、以下のような課題を抱えている企業も少なくありません。

  • データのサイロ化
  • 分析ニーズの多様化
  • 拡張性とコスト

上記の課題に対して、 AWS ではスケーラブルなデータレイクである Amazon S3 を中心にして、データレイクと分析サービスのデータストア間でデータをシームレスに移動するモダンデータアーキテクチャを活用したモダンデータ戦略のアプローチを推奨しています。

AWS では以下のように、多様な分析ニーズに対応する最適な分析サービスを提供しています。

ユーザ 分析方法/IF AWS サービス
ビジネス部門 BI, Dashboard Amazon QuickSight
データアナリスト SQL Amazon Athena, Amazon Redshift
データサイエンティスト SQL, Notebook Amazon Redshift, Amazon EMR, Amazon SageMaker
インフラエンジニア 検索・可視化 (ログ分析) Amazon OpenSearch Service

利用するサービスが増えると構築・運用・管理の負荷が大きくなりますが、サーバの存在を意識しないサーバレスのサービスを利用することでこれらの負荷を軽減し、分析に集中することができます。

データ分析基盤を構成する収集・保存・変換・分析の各要素でサーバレスの選択肢が広がってきています。
データ収集では Amazon Managed Streaming for Apache Kafka Serverless や Amazon AppFlow、 データ変換では AWS Glue などのサーバレスのサービスを利用することができます。 また、AWS re:Invent 2021 で発表された Amazon Redshift Serverless や Amazon EMR Serverless など分析サービスにもサーバレスの機能が追加されています。

データのサイロ化の課題に対しては、AWS Lake Formation を利用することで複雑なデータレイク運用を統制するためのデータガバナンスやデータメッシュによるデータ管理 [2]を実現することができます。

進化したデータウェアハウス Amazon Redshift

次に、モダンデータ戦略の中核を担う AWS のデータウェアハウスサービスである Amazon Redshift の機能アップデートについて幾つか紹介がありました。

Amazon Redshift Serverless (preview)

Amazon Redshift Serverless は Amazon Redshift クラスタの運用・管理が不要で、クエリ実行のためのエンドポイントへ接続し簡単に分析することができる機能です。ワークロードに応じて自動スケール・自動チューニングが行われます。

同じように SQL を用いて分析を行うことができる Amazon Athena や Amazon Redshift (Provisioned) と、 Amazon Redshift Serverless の使い分けの判断基準としては、複数の結合やサブクエリなどやや複雑な処理を行う低頻度または予測不能なワークロードの場合、Amazon Redshift Serverless の利用が向いています。また、コスト効率の良さからテスト環境・開発環境での利用にも適しています。

Amazon Redshift Serverless はコンピューティングとストレージで別々に料金が発生します。コンピューティング容量は Redshift Processing Unit (RPU) という単位で測定され 1 秒単位で料金が発生する仕組みのため、ワークロードの実行時間のみにコストを抑えることができます。

Amazon Redshift Query Editor V2

Amazon Redshift Query Editor V2 はセットアップ不要の Amazon Redshift 用のクエリエディタです。チームメンバーと共有可能な SQL Notebooks やクエリ結果の可視化など便利な機能があります。

Amazon Redshift ML

Amazon Redshift ML は使い慣れた SQL で機械学習モデルの構築・学習・予測を行うことができる機能です。基本的な教師あり学習や教師なし学習のアルゴリズムをサポートしており、Amazon SageMaker Autopilot と統合された Auto ML 機能の利用、さらに独自のモデルをインポートして利用することもできます。

Kinesis Data Streams のストリーミング取り込みのサポート (preview)

従来、Amazon Kinesis から Amazon Redshift にデータを取り込む場合、Amazon S3 上のデータに対して COPY コマンドを実行しニアリアルタイムで取り込む方法がありました。
今回、新たに Kinesis Data Streams のストリーミング取り込みがサポートされたことにより、数百MB/秒 でストリーミングデータを取り込みながら低レイテンシで SQL クエリを実行することができるようになりました。

自動マテリアライズドビュー (preview)

マテリアライズドビューはベーステーブルに対する SQL クエリの結果を事前にビューとして保持しておく方法です。マテリアライズドビューを効果的に利用することで、クエリパフォーマンスを向上することができます。
Amazon Redshift の自動マテリアライズドビューは機械学習を利用してワークロードの継続的なモニタリングを行い、高いクエリパフォーマンスを発揮できるようにマテリアライズドビューを自動的に生成・管理する機能です。
自動マテリアライズドビューを利用することで、クエリパフォーマンスを維持しつつマテリアライズドビューのメンテナンスコストを削減することが期待できます。

おわりに

AWS Summit Online 2022 のセッション 「最新の DWH およびデータレイク動向について(AWS-36)」 についてレポートしました。
本セッションでは、データのサイロ化や分析ニーズの多様化などの課題に対応するために、モダンデータ戦略の基で分析サービスを組み合わせて柔軟に拡張していく方法について紹介がありました。
Amazon Redshift や Amazon EMR などの分析サービスにサーバーレスの機能が追加され、より簡単にコストを抑えながら分析サービスを利用できるようになり、また Amazon Redshift にストリーミング取り込みや機械学習などの新しい機能が追加されたことで用途がさらに広がってきている印象を持ちました。

参考文献

[1] The Seagate Rethink Data Survey, IDC, January 2020
[2] データメッシュで作る消費財企業向けモダンデータレイクのアーキテクチャ
[3] Amazon MSK Serverless が一般提供開始 – マネージド Kafka クラスターのキャパシティープランニングが不要に
[4] Amazon Redshift が、Kinesis データストリームのストリーミング取り込みのパブリックプレビューを発表

t2sy

2016年11月、データサイエンティストとして中途入社。時系列分析や異常検知、情報推薦に特に興味があります。クロスバイク、映画鑑賞、猫が好き。

Recommends

こちらもおすすめ

Special Topics

注目記事はこちら