【生成 AI】動画生成モデル「Veo 3.1」が Vertex AI でプレビュー開始になりました!利用手順や料金、特長を解説!

Google Cloud

2025.10.17

Topics

はじめに

こんにちは、フクナガです。
動画生成 AI のクオリティ向上が話題になり、社内でも「動画生成を試してみたい!」という声を聞くようになってきました。
個人的には、動画生成モデル「Veo」がかなりクオリティが高いイメージがあり、さらに Vertex AI 上から利用する際にプロンプトを大量に入れられるため非常に好印象で、社内でも使ってみてもらおうかなと考えています。

そのため社内向けに手順を整備したのですが、せっかくなのでブログでも公開したいと思います!

という記事を執筆していたタイミングでちょうど最新モデル「Veo 3.1」のプレビューが提供開始となりました!
Veo 3.1 を試したい方も非常に多いと思いますので、本ブログを読んでぜひ試してみてください!!

Veo とは

Google が提供する動画生成 AI モデルです。
動画生成モデルですので出力された動画を見ていただくのが、Veo を理解するうえで最も良い方法だと思います。
まずは、こちらのサイトで様々な動画をご覧ください。
https://deepmind.google/models/veo/

実写のような表現からアニメーションなど多様な動画を生成することが可能です。
Vertex AI では、入力情報としてテキストと画像に対応しており、映像と音声を出力することが可能です。

Veo 3.1 とは

Veo 3 をもとにして構築されたモデルで、より強力なプロンプトの遵守オーディオビジュアル品質の向上を実現したモデルとなっています。
参考:Introducing Veo 3.1 and advanced capabilities in Flow

単純なクオリティ向上に加え、リファレンスとして複数枚の画像を使って生成される動画をコントロールできたり、動画のはじめと終わりを画像で指定できたりと様々な機能が用意されているようです。
動画に対する要素追加や削除も提供されるようで、動画編集用途としてもかなり期待できそうです。

デモ動画がいくつか公開されておりますが、映像に加え音声もかなりのクオリティで非常に驚きました。

Vertex AI 上で利用する Veo 3.1 のプレビュー版で提供される機能については下記にて紹介されていますが、「Extend a Veo video」については提供されないようですね。
Veo 3.1 preview

ちなみに余談ですが、上記のサイトを NotebookLM に渡してサクッとサマリして概要は理解しました。
非常に便利ですね!

コスト

Vertex AI にて、Veo を利用する際に発生するコストについて整理していきましょう。
※本記事執筆時点(2025/10/16)では、Veo 3.1 の料金は公開されておりませんでした

モデル 入力形式 出力形式 料金
Veo 3 Text/Image prompt Video + Audio $0.40/秒
Veo 3 Text/Image prompt Video $0.20/秒
Veo 3 Fast Text/Image prompt Video + Audio $0.15/秒
Veo 3 Fast Text/Image prompt Video $0.10/秒

出典:Cost of building and deploying AI models in Vertex AI

現在生成可能な動画の長さとして 4、6、8 秒が提供されております。
動画 + オーディオを生成可能な Veo 3 で試算すると、8 秒の動画約 488 円(3.2 ドル)となります。
動画のみ生成(音声の生成を無効化した状態で生成)であれば半額程度に抑えられるので、そういったモデルの使い分けで安く試していくのがおすすめかもしれません。

利用手順

1. Google Cloud コンソール上の検索窓で「Vertex AI」と検索し、「Vertex AI」を選択

2. 画面左の「メディアを生成」を選択

3. 「Veo Generate video」を選択

4. 右側の Settings で適宜設定を変更し、プロンプトを入力して送信ボタンを押下

設定可能な項目を一部ご紹介します。

  • モデル
    Veo の各モデルを選ぶことができます。
    ここから、Veo 3.1 についても選択できるようになっています。

  • アスペクト比
    現状は横長、縦長の 2 種類から選択できるみたいですね。

  • 検索結果の表示件数
    1 ~ 4 件の中で生成する動画の数を選択可能です。

  • 動画の長さ
    4、6、8 秒から選択できます。

  • 出力解像度
    720p、1080p から選択できます。

  • 音声の生成
    音声生成を含むか否かを選択できます。

実際の生成については皆様のお手元で試していただきたいのですが、とても高いクオリティの動画が生成されました。
私は「森の中で焚火をしながら食事をする若者」というテーマで生成してみたのですが、動画の登場人物が普通に日本語で会話し始めたり、焚火の音が鳴ったり、とても驚くクオリティでした。

プロンプトを作る際に参考になるリンク

動画生成を実施する際、何をどう伝えればよいのか悩むと思います。
そういう場合はまず下記のドキュメントを参照し、プロンプト作成の基本を押さえるのがよさそうです。
参考:Vertex AI の Veo の動画生成プロンプト ガイド

うまく生成された例を参考にプロンプトを組みたい場合は、Veo の公式サイトの生成例を参照するのもおすすめです。
https://deepmind.google/models/veo/

まとめ

本ブログでは、動画生成モデルである「Veo」、そしてその最新モデルである「Veo 3.1」について概要や料金、利用方法をご紹介しました。
動画生成にはまだまだ馴染みのない方も多いと思いますが、非常に手軽に試せるのでぜひ試してみてください!!

NHN テコラスの採用情報はこちら

テックブログ新着情報のほか、AWSやGoogle Cloudに関するお役立ち情報を配信中!

フクナガ

2025 Japan AWS Ambassadors / Google Cloud Partner Top Engineer 2025 / 2024 Japan AWS Top Engineers 選出されました! 生成 AI 多めで発信していますが、CI/CDやIaCへの関心も高いです。休日はベースを弾いてます。

Recommends

こちらもおすすめ

Special Topics

注目記事はこちら