【Google Cloud Next Tokyo ’24】マルチモーダル生成 AI Gemini による映像解析 How-To(D2-AIML-07)

Google Cloud

2024.8.7

Topics

はじめに

こんにちは、フクナガです。
8月1日、2日にパシフィコ横浜ノースで開催されたGoogle Cloud Next Tokyo ’24に現地参加してきました!

関連記事
【Google Cloud Next Tokyo '24】現地参戦したので、写真付きで魅力を語ってみた

今回の記事では、「マルチモーダル生成 AI Gemini による映像解析 How-To」というセッションについて関連する情報とともにレポートします!

マルチモーダルとは

マルチモーダル モデルは、テキスト、画像、音声などの幅広い入力をプロンプトとして処理し、それらのプロンプトをソースタイプだけでなくさまざまな出力に変換できます。
出典:マルチモーダル AI

ざっくりいうと、「テキスト以外のデータも入力できるようになったよ」という感じです。
人間が視覚や聴覚など様々な情報から状況を読み取り、判断するのにどんどん近づいているということですね。

マルチモーダルのデモと言えばGemini Proのこちらのデモがかなり話題になったかなと思います。
ハンズオン Gemini: マルチモーダル AI とやりとりする
かなりわかりやすいデモになりますので、もしイメージが湧かない方がいれば見てみてください!

セッション概要

セッションタイトル

マルチモーダル生成 AI Gemini による映像解析 How-To

登壇者

Google Cloud 段野 祐一郎 様

概要

AI による利活用が進みづらかった動画・映像ファイルも、マルチモーダル AI の進化により今後、より処理の自動化が進むと思われる。ただし、単純に動画ファイルを生成 AI に解析させても動画という特殊メディアゆえに思うような結果が得られなかったり、動画を解析する以外の利活用のイメージが湧かなかったりすることで、利活用が進まない可能性がある。このセッションでは、より多くの企業が動画も含めた非構造化データの利活用を推進できるための、Gemini による映像解析におけるベストプラクティスをご紹介します。

セッションレポート

今回のセッションでは、マルチモーダルな生成 AI モデルであるGeminiを活用して映像解析をする際、どういったテクニックが存在するのかについて語られていました。
個人的にあまりまだ試せていない機能となりますので、非常に勉強になりました!
その中から抜粋してご紹介していきたいなと思います!

1. 生成AIを用いた動画解析のニーズ

動画要約や検索用のメタデータ作成文字起こしなど様々なニーズが存在します。
スポーツの試合映像から自動で実況・解説を生成するデモをどこかで見たような気がします。
マルチモーダルを仕事に利用するイメージが湧いていなかったので、前提としてどういうニーズがあるのかを解説いただけたのがとても良かったです。

2. Gemini が対応する映像フォーマット

プロンプトについての解説に入る前に、どういったフォーマットに対応しているのか紹介がありました。
サポートされているファイル形式については、下記ドキュメントに記載があります。
メディア ファイルを使用したプロンプト

3. Gemini 1.5 へ動画を入力する際の注意点

(1) 動画は1fps(1秒1フレーム)としてサンプリング処理される

フレームレートを上げても精度は向上しないよ、といった内容でした。

(2) 最大10動画までインプット可能

あくまで「可能」であって、推奨されるのは1プロンプトに1動画だそうです。
また、プロンプトの前に動画を配置するのが入力時のコツみたいです。

4. プロンプトについて

基本的なベストプラクティスについては、やはりAnthropic社のドキュメントが分かりやすいので、そちらを閲覧いただきたいなと思っております。本当にすばらしい。
参考:プロンプトエンジニアリング

上記の要素に加え、動画ならではの要素が語られていました。

(1) 事前に映像を分割する

意味的にまとまりのある動画や画像に分割して、それぞれに合ったプロンプトを探るのがポイントみたいです。
動画のシーン分割」と「対象のシーンに実行したい処理や分析タスク」をプロンプト内で定義するのも有効みたいです。

(2) 適切な言い換え、詳細化を行う

動画のサマリーを作る際「動画を説明して」ではなく「重要なトピックを要約して」のように詳細に伝えることが重要です。
いくつか言い換えパターンを用意しておくと、既存のプロンプトを変更する際や新規でプロンプトを作る際の手間や時間が省略できそうですね。

(3) 画像を入力して、事前情報を与える

動画に出てくる人物やキャラクター、オブジェクトに対して事前に説明画像を与えておく手法です。
特定の人物の動きを追いたい場合や、特定の物体の数などを算出する場合などに使えそうですね。
一番取り入れやすそうな手法だったのでいつか試してみたいなと思いました!

(4) DON’T 形式ではなく、DO形式で記載する

「○○を使わないでください」ではなく「○○を使うのを避けてください」と表現するイメージですね。
これは、動画に限らず使えそうなテクニックですね。

やってみた

習うより慣れろ」という言葉もありますので、実際にやってみたいと思います!
この場合は、習ってから慣れる、という流れですが。。。

今回は、Mini Golf with Gemini をプレイしている同僚の映像(12秒)について動画解析を行ってみたいと思います。

お値段が怖いので Gemini 1.5 Flash を利用しています。
それでは、色々なパターンを試してみましょう!

1. 工夫なし

まずは、何も考えずただ「説明して」とだけ伝えてみました。

【生成 AI からの回答】

この映像は、ミニゴルフゲームのプレイの様子を捉えたものです。プレーヤーは、白いTシャツとカーキ色のズボンを着用し、ミニゴルフクラブを手にしています。彼は真剣な表情で、ボールを打つ準備をしています。 彼は、ボールを強く打ち、カップに近づけることに成功しました。 この映像は、ミニゴルフの楽しみとプレーヤーの集中力を示しています。

【感想】

これだけ少ない情報でも、服装や表情、ミニゴルフをしているなどの様々な回答が得られました。
ここまで手軽に映像解析が行えてしまうのは素晴らしいですね!
カップに入っていないことも理解して教えてくれていて、すごいです!

2. 適切な言い換え、詳細化を行う

「説明」について具体的に定義してみました。ちなみに、このタイミングでプロンプトの前に動画を配置するようにしました。

【生成 AI からの回答】

この動画を解析した結果、以下のことがわかりました。

登場人物の特徴
男性1名。
20代後半から30代前半と思われる。
白のTシャツに黒いズボンを着用している。
髪型は黒髪で少し長め。
落ち着いた雰囲気。

何をしているのか
ミニゴルフをしている。
画面に映し出される自分のスイングの映像を見ながら、集中してプレイしている。
パターでボールを打つ動作に少し力が入っているように見える。

どういった場所で撮られた映像なのか
ミニゴルフ場。
緑色のフェルトが敷かれたコースが見える。
背景に「Mini Golf with Gemini」という文字が書かれた看板がある。
他のプレイヤーの姿も見えて、イベント会場のような場所と思われる。

動画の結末について、登場人物が望んでいる展開になっているか
動画は途中で途切れており、結末は不明。
ボールがカップに入った様子や、スコアが表示される様子は確認できない。
人物がどのような展開を望んでいるのかは不明。

補足
動画には音声は含まれていません。
人物の表情からは、ゲームに真剣に取り組んでいる様子がわかります。

【感想】

プロンプトで「欲しい情報」と「どのくらい欲しいか」を定義することで、かなりたくさんの情報を教えてくれるようになりました。
「他のプレイヤーの姿も見えて、イベント会場のような場所と思われる。」とありますが、本当に隙間からちょっと外が見えるレベルなので、そこから情報を得られるのはすごいなと思います。

3. 事前説明画像を与える

私の中で一番大きな発見だった「事前説明の画像を与える」というテクニックを試してみたいと思います。
今回は、登場人物の彼と私の後ろ姿、デモ展示の説明パネルを与えて、同じタスクを実行してもらいたいと思います。

また、「登場人物について」という部分だけ下記にプロンプトを書き換えています。

・登場人物について
可能なら誰なのかを教えてほしい

【生成 AI からの回答】

動画の解析結果
この動画は、 Google Cloud のイベント で撮影されたものです。イベントでは ミニゴルフゲーム が体験できるブースが設置されており、動画の登場人物である 江頭 さんは、そのブースで ミニゴルフ をプレイしています。

動画の目的は、Google Cloud の新しいAIモデルである Gemini を使ったミニゴルフゲームの実演と、Geminiの機能や性能をアピールすることです。

動画内で江頭さんは、 Gemini を使って ミニゴルフ をプレイしています。 彼は、グリーンをうまく読みながら、ボールをカップに近づける ように努力しています。

しかし、残念ながら ボールはカップに入らず、結局失敗に終わってしまいました。

動画の最後では、江頭さんは 少々悔しそう な表情をしています。 彼の望む展開とは異なり、目標達成には至りませんでした。

人物情報
動画に登場する人物は、 江頭 さんです。 江頭さんは、Google Cloud のイベント に参加しており、ミニゴルフ をプレイしています。

まとめ
この動画は、Google Cloud のイベントで撮影されたもので、新しいAIモデルである Geminiを使ったミニゴルフゲームの実演です。 江頭さんは、Geminiを使ってミニゴルフをプレイしましたが、残念ながら目標達成には至りませんでした。

【感想】

reference information の情報を受けて、動画に写っているのが江頭さんであることを理解してくれました。
ブースの概要が分かる写真を付けたことで、どういった場所で撮影されたかの情報がより詳細になっています。
また、明確に「失敗」「少々悔しそう」という風に回答が返ってきたのはこのケースだけでした。
厳密な検証ではないので、毎回事象が再現するとは限りませんが、面白い差分かなと思います!
様々な情報を入力できる「マルチモーダル」ならではの活用方法であり、色々なユースケースにおいて優位性がありそうな手法だなと思いました!

まとめ

本記事では、「マルチモーダル生成 AI Gemini による映像解析 How-To」というセッションについて関連する情報とともにレポートしていきました!
実際に映像解析をやってみることでより深い理解につながったかなと思います。
2024年9月以降にセッションのアーカイブ動画が出るとアナウンスがありましたので、気になる方はぜひ見てみてください!

また、今回のように「試してみよ!」で即座に試せるのはGoogle Cloud の 生成 AI サービスである「Vertex AI」の大きな魅力の1つだと思います。
また、入力するプロンプトのトークン数が事前に表示されるUIのおかげで、大胆に検証することができたなと思っています。こういった細かい部分も非常に素晴らしいですね!
気になった方は、お手元の動画などを使ってぜひ色々試してみてください!

テックブログ新着情報のほか、AWSやGoogle Cloudに関するお役立ち情報を配信中!

フクナガ

インフラエンジニア歴5年のフクナガです。2024 Japan AWS Top Engineers選出されました! AWS(特にAmazon BedrockとAWS CodePipeline)とGoogle Cloud(Vertex AI)が得意分野です。休日はベースを弾いてます。

Recommends

こちらもおすすめ

Special Topics

注目記事はこちら