【Google Cloud Next Tokyo ’24】 Gemini で実現するマルチモーダル生成 AI – ユースケースとアーキテクチャの理解を深める（D2-AIML-06）

ヒョンスク

Google Cloud

2024.8.14

Topics

はじめに
セッション概要
セッションレポート
感想
まとめ

はじめに

こんにちは、ヒョンスクです！

2024年8月1日から2日までにパシフィコ横浜ノースで開催されたGoogle Cloud Next Tokyo ’24に行ってまいりました。

新製品の発表、技術デモ、顧客事例発表など、さまざまなセッションが行われまして参加するのが忙しかったです。そして、Googleのクラウド技術を活用したソリューションを直接体験し、学ぶ機会を得ることができて楽しめました。

最も記憶に残る「Gemini で実現するマルチモーダル生成 AI – ユースケースとアーキテクチャの理解を深める」というセッションについて関連する情報とともにレポートします！

セッション概要

セッションタイトル

Gemini で実現するマルチモーダル生成 AI – ユースケースとアーキテクチャの理解を深める
セッションレベル：中級者

登壇者

Google Cloud 遠山雄二
カスタマーエンジニアリング
カスタマーエンジニア

概要

本セッションでは、Gemini の最大の特徴である「マルチモーダル」と、「ロングコンテキストウィンドウ」にフォーカスをあて、その可能性をご紹介します。マルチモーダル / ロングコンテキストウィンドウの概念を理解をした上で、それがどのようなビジネスユースケースにつながるのか。またそのユースケースをどのように実現するのか、マルチモーダル生成 AI を利用した代表的なアーキテクチャパターンである、マルチモーダル RAG を例に、実践のポイントをお伝えします。ユースケースを検討中のビジネスサイドの皆様から、具体的な実装イメージを知りたいエンジニアの皆様まで、即実践できるアイデアを得られるセッションです。

セッションレポート

今回のセッションでは、Geminiを活用して非構造化データ（画像や動画）をどのように生成し、変換し、そして抽出するかに関する具体的な活用事例が紹介され、それに対応するアーキテクチャを理解するポイントとなりました。データエンジニアとして、データ処理の過程が非常に有益であり、ビジネスの観点からも深く考える機会となりました。それでは、セッションについて簡単にご紹介いたします。

１．生成AIのトレンド – 高速なレスポンスの実現

Google Cloud の基盤モデルである Gemini 1.5 Flash が紹介されました。レイテンシー（遅延時間）とコストが重要な作業において優れた性能を発揮するように設計されたそうです。ユースケース例として、カスタマーサポート、マルチモーダルチャットアプリケーション（チュータリングやビデオQ&A）、精密な画像およびビデオキャプション生成、長いドキュメントや表からのデータ抽出、オンデマンドコンテンツ生成（ゲーム、ストーリーなど）、そして教育製品での活用が可能です。

Gemini 1.5 Pro : ロングコンテキスト

Gemini 1.5 Flash : 高速なレスポンスと高いコスト効率

２．生成 AI を利用したビジネスユースケース

生成AIのユースケースにより創出される価値の約75％は、「顧客対応」「マーケテング＆セールス」「ソフトウェアエンジニアリング」「研究開発（R&D）」の４つの領域に集中
出典 : 生成 AI がもたらす潜在的な経済効果、McKinsey & Company、2023年６月

弊社で新たにビジネスを創出できる可能性がある取り組みについて考えてみました。既に存在しているかもしれませんが、例えば、新入社員向けの教育プログラム、社内規定のチャットボットシステム、そして会社のポータルサイトにおけるチャットボットシステム（24時間対応の問い合わせチャットボット）などが挙げられると思います。

3．マルチモーダル生成AIのユースケース

マルチモーダル生成AIのさまざまなユースケースについて取り上げました。LLMが画像/動画データを活用してどのように情報を生成、加工、抽出できるかを説明しました。例えば、画像生成ではエンターテインメントやビジネス用途のクリエイティブコンテンツを作成できて、画像の言語化プロセスを通じて検索サービスの改善も可能です。また、動画データにおいては、メタデータを追加したりビジネス状況を分析するなど、多岐にわたる活用方法が提示されました。
このセッションを通じて、AIが多様な形式のデータをどれほど柔軟に処理し、ビジネスにどのように価値を付加できるかについて深い理解を得ることができました。データエンジニアとして、これらの技術が実際にどのように実装され、ビジネスに応用できるかを考える時間となりました。

(1) ユースケース例 – 1 : 非構造データを構造データへの変換

プロンプトを入力し、ファイルを添付して希望する形式でデータを出力してくださいと依頼すると、その形式に応じたデータが正確に出力されることを確認しました。非構造化データであっても、Geminiを経由すると構造化データとして出力される点に感心しました。

(2) ユースケース例 – 2 : 面像/動画の加工、ビジネスへの利用

面像や動画のデータまで読み込み、メタデータ、レコメンデーション理由、ビジネス状況の可視化までデータ化することができます。

(3) ユースケース例 – 3 : マルチモーダルデータに対するナレッジ検索

ユーザーからテキスト形式のクエリが入力され、そのクエリに対してマルチモーダルデータ（テキスト＋画像）を基にしたチャットエージェントが適切な回答を提供するプロセスで、企業の財務報告書（Form 10-K）などのテキストデータだけでなく、関連するグラフや表といったビジュアルデータを組み合わせて、より充実した情報をユーザーに提供することになりました。かなり素晴らしい機能で感心しました。

より詳しい情報は、弊社ブログでフクナガさんが執筆したマルチモーダルに関する詳細な説明をご参照ください。

関連記事: 【Google Cloud Next Tokyo ’24】マルチモーダル生成 AI Gemini による映像解析 How-To（D2-AIML-07）

参考：　What is Multimodal Search: “LLMs with vision” change businesses

４．組織での生成AI利用における課題と対策

生成AIの導入がもたらすさまざまなリスクと、それらを管理するための解決策について深く理解することができました。特に、精度（ハルシネーション）、セキュリティ、知的財産権侵害など、実際のリスクに対する具体的な対応策を学ぶことができました。

出典： The state of AI in early 2024
参考：生成AIについての補償によりお顧客保護

５．マルチモーダルRAGのアーキテクチャについて

(1) マルチモーダル RAG – 実現方式

検索拡張生成（RAG）とは

検索拡張生成（RAG）は、従来の情報検索システム（データベースなど）の強みと、生成大規模言語モデル（LLM）の機能を組み合わせた AI フレームワークです。この追加の知識と AI 独自の言語スキルを組み合わせることで、AI は、より正確で最新の、特定のニーズに関連するテキストを作成できます。

出典：検索拡張生成（RAG）

RAGを実装するための2つのアプローチについて紹介されました。

1) マネージドサービスを利用して実装
Vertex AI Agent Builder (Vertex AI Search) を利用する方法です。このアプローチでは、生成AIを活用した検索および対話型アプリケーションを構築するための機能が提供され、UIが含まれているため、迅速な開発が可能です。まずこの方法を使用して要件を満たせるかどうかを確認するのが推奨されます。このアプローチの利点は、設定や管理が簡単で、複雑なコーディングを必要とせずに迅速に開始できることです。

2) スクラッチで実装
PythonとGeminiを活用して、直接コードを記述し、さまざまな機能を組み合わせてカスタマイズする方法です。このアプローチは、データの入力および出力形式に対する柔軟性が高く、特定の要件に合わせたカスタムソリューションを開発するのに適しています。

(2) マルチモーダルRAG – アーキテクチャ

テキストと画像のデータを収集した後、前処理されたデータはベクトル形式に変換され、データベースに保存されます。ユーザーの入力クエリもベクトルに変換され、そのベクトルを基にデータベースで検索が行われます。検索された結果はLLM（大規模言語モデル）を通じて処理され、最終的にユーザーにとって意味のある結果として返されます。

参考：上記を実装するためのサンプルコード

１）精度について－マルチモーダルデータの前処理

パターン1: 全モダリティを同じベクトル空間に保存
パターン2: モダリティ毎にベクトル化しReranking処理
パターン3: 全モダリティを主要なモダリティに統一した後にベクトル化

マルチモーダルデータの前処理方法に対する多様なアプローチを理解することができました。各パターンは、特定の状況に応じたメリットと課題を持っており、要求事項に応じて適切なパターンを選択し、活用することが重要であると感じました。

参考 : テキストEmbedding モデル Embedding モデルのファインチューニング、ranking API Check grounding API

２）セキュリティについてーデータセキュリティの考慮

① データソースからの機密データの抽出と前処理
まず、データソースから機密情報が含まれたデータを抽出します。この抽出されたデータは、Sensitive Data Protection機能を使って前処理が行われます。この段階では、機密データの削除、マスキング、仮名化、トークン化、フォーマット保持暗号化、日付シフトなどの方法が適用されます。
この前処理されたデータは、LLM（大規模言語モデル）に送られ、AIによる高度な処理に備えます。具体的には、RAGやファインチューニングのために機密情報が安全に処理され、LLMの出力時には再度フィルタリングされることで、機密情報が適切に保護された状態でユーザーに結果が返されます。

参考 : Sensitive Data Protectionの生成AI利用イメージ

②Geminiを利用した機密データの保護強化
次に、Geminiを利用して機密データの保護をさらに強化する方法を紹介します。
Geminiは、入力プロンプトや出力プロンプトの類似度を計算して、適切なフィルタリングを行います。これにより、危険なアタックプロンプトや不適切なプロンプトがAIモデルに入力されるのを防ぎます。
また、アプリケーションへの入力と出力を事前に定義したプロンプトと比較し、適切なフィルタを適用することで、ベクトルデータベースに保存されたデータが不適切に扱われるリスクを軽減します。

感想

今回のセッションを通じて、生成AIモデルのさまざまな活用可能性とその潜在力を深く理解することができました。特に、Gemini 1.5 ProやGemini 1.5 Flashを使った高効率なデータ処理と迅速な応答は非常に印象的で、これらの技術が実際のビジネスにどのように応用されるのかを考える良い機会となりました。また、AIを活用する際の正確性やセキュリティ、知的財産権に関する問題への対策について学び、RAGアーキテクチャの重要性も再確認しました。今回のセッションは、AI技術がビジネスにどのように価値をもたらすかについての貴重な洞察を提供してくれました。

まとめ

今回のセッションでは、生成AIモデルのさまざまな活用可能性について紹介されました。Gemini 1.5 ProとGemini 1.5 Flashを通じて、マルチモーダルデータ処理やロングコンテキスト処理において高い効率性と高速なレスポンスを実現する方法が提示されました。

また、マルチモーダル生成AIのユースケースが説明され、LLM（大規模言語モデル）が実施できるタスクとそれに伴うデータ活用方法が紹介されました。これにより、AIがどのようにデータを生成、変換、抽出するかについて理解が深まりました。

生成AIを組織内で活用する際の課題として、精度（ハルシネーション問題）、知的財産権の侵害、セキュリティ問題などが挙げられ、これらに対する対応策が紹介されました。特に、検索拡張生成（RAG）などを活用して、こうした問題を解決する方法が提示されました。

最後に、マルチモーダルRAGアーキテクチャに関連するデータの前処理やデータセキュリティの重要性が強調され、AIの活用がビジネスにおいてどのように価値を創出できるかを再認識する機会となりました。

テックブログ新着情報のほか、AWSやGoogle Cloudに関するお役立ち情報を配信中！

Follow @twitter

#Google Cloud Next Tokyo ’24、Gemini、Vertex AI、生成AI

ヒョンスク

日本のビールが大好き、韓国出身です。
現、データエンジニアとして活躍してます。
クラウドエンジニアになるために頑張っているところです！
Google Cloud11冠

Recommends

Special Topics

注目記事はこちら

データ分析入門
これから始めるBigQuery基礎知識

2024.02.28

ホワイトペーパー

　AWSの料金が 10 %割引になる！
『AWSの請求代行リセールサービス』

2024.07.16

サービス

【Google Cloud Next Tokyo ’24】 Gemini で実現するマルチモーダル生成 AI – ユースケースとアーキテクチャの理解を深める（D2-AIML-06）

はじめに