【生成 AI】Gemini に新モデル「Gemini 2.0 Flash」がやってきたので Google Cloud から呼び出してみた
2024.12.12
はじめに
こんにちは、フクナガです。
なんと、Gemini に新バージョン「Gemini 2.0」がやってきました!!
Introducing Gemini 2.0: our new AI model for the agentic era
その中で、Gemini 2.0 Flash が Google Cloud で利用が可能になったので、
特長などをご紹介しながら新モデルの素晴らしさを体感していきたいと思います!
Gemini 2.0 Flash の特長
今後出るであろう重量モデルと共通する特長もあると思いますが、現状で公開されている情報から特長をまとめてみます!
(1) Gemini 1.5 Pro にも勝る回答精度
Gemini 2.0 Flash は、Gemini 1.5 Flash の後継となる軽量モデルです。
軽量モデルとは一般的に「安い」「早い」を実現する代わりに、重量モデルよりは回答精度が落ちることが多い、というモデルです。
本来であれば、重量モデルほどの回答精度が不要な場合に、コストやレイテンシーを下げるためにとられる選択肢となります。
しかし、この Gemini 2.0 Flash は Gemini 1.5 Pro と比較して高い回答精度を記録した項目が多くあります。
下記は、公式サイトから引用した比較表となります。
出典:Introducing Gemini 2.0: our new AI model for the agentic era
長文コンテキストのタスクについては大きく劣っていますが、逆にそれ以外の項目ではほぼ同等かそれ以上の記録を出しています。
Gemini 2.0 Pro きたらどうなるんだ?
恐ろしい。。。
(2) Gemini 1.5 Pro の 2 倍の回答速度
軽量モデルの最大の特長である「回答速度」についてです。
公式ドキュメントには以下のように記載があります。
Notably, 2.0 Flash even outperforms 1.5 Pro on key benchmarks, at twice the speed.
出典:Introducing Gemini 2.0: our new AI model for the agentic era
「早くて旨い」ならその店を選ぶほかないですよね?
ただ、「そこまで早くないけど信じられないほど旨い」モデルがくるかもしれないので、それを楽しみに待っていようと思います!
(3) マルチモーダルライブ API
To help developers build dynamic and interactive applications, we’re also releasing a new Multimodal Live API that has real-time audio, video-streaming input and the ability to use multiple, combined tools.
出典:Introducing Gemini 2.0: our new AI model for the agentic era
リアルタイムでオーディオやビデオの入力を受け取り、タスクを行う機能が追加されたようです!
また、その内容がわかりやすくまとめられたデモビデオが公開されています。
Building with Gemini 2.0: Multimodal live streaming
聴覚、視覚を使って物事を判断できるという点で、人間のように感じてしまう、恐ろしくもすばらしい機能ですね!
(4) オーディオ、画像出力に対応
Gemini はマルチモーダル(様々な種類の入力に対応)なモデルとして有名だと思います。
しかし、実は出力自体はテキストのみだったんですね。
Gemini 2.0 では、「Native audio output」「Native image output」と表現される音声、画像を標準で出力する機能を持っています。
Native image output の利用イメージを伝えるために、公式から動画デモが提供されています。
Building with Gemini 2.0: Native image output
屋根付きの車の画像を「コンバーチブルにして!」というプロンプトを入力するだけで編集する様子は非常に衝撃的です。
ちなみに、そういった入力/出力のモデルごとの対応有無などは下記のドキュメントにまとまっています。
参考:Google models
※執筆時点(2024/12/12)で英語版にのみ記載あり
注意点
この出力機能ですが、今は一部のユーザーのみ利用可能だそうです。
参考:Gemini 2.0 (experimental) > Image generation (early access/allowlist)
とても残念ですが、今回のブログではこの機能は試せないみたいですね。
利用料金
執筆時点(2024/12/12)では、詳細な金額などは掲載されていませんでした。
Try Gemini 2.0 models, the latest and most advanced multimodal models in Vertex AI. See what you can build with up to a 2M token context window, starting as low as $0.0001.
出典:AI and machine learning products
ただ、前世代である Gemini 1.5 Flash に近い金額(or 安価)になるのではないかなと予想されます。
Vertex AI での各モデルの利用料金は下記ドキュメントで紹介されていますので、日々チェックする必要がありそうですね!
参考:Vertex AI pricing
使ってみた
さあ、大まかな特長を把握したところで早速触ってみたいと思います!
本記事では、Gemini 2.0 Flash の Google Cloud コンソールでの利用手順についてキャプチャ付きでご案内します。
1. 利用手順
(1) Vertex AI コンソールへ遷移し、「自由形式」を選択
(2) 「モデル」のプルダウンから「gemini-2.0-flash-exp」を選択
あとは、お好きにプロンプトを打つだけです!
なんてシンプルで簡単なんだ。
2. text-to-text のタスクを試してみた
以前 Gemini 1.5 Pro の記事を執筆した際に使ったプロンプトと同じような内容である「ブログの執筆」という例で試してみます。
プロンプトはこちらです。
下記のフォーマットで技術ブログを書いてください。 <h2>はじめに</h2> 読み手が、この先のブログを読みたいと思うような挨拶と導入を書いてください。 <h2>Google Cloudにおける生成AIの選択肢を整理</h2> Google Cloud で生成 AI を利用する場合の利用方法を紹介します。 <h3>タグを使って各方法についてタイトルを付けます。 <h3>Gemini 2.0 Flash は何がすごい?</h3> 下記のURLからポイントを抽出してきてください。 https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#ceo-message <h2>使ってみた</h2> 利用したコンソールキャプチャとともに記載するので空白にしておいてください。 <h2>まとめ</h2> 先の展開を予測させるような綺麗なコメントをお願いします。
今回は比較のため、「Gemini 2.0 Flash」「Gemini 1.5 Flash」「Gemini 1.5 Pro」の 3 つで同じプロンプトを実行してみます。
(1) Gemini 2.0 Flash
まず驚くべきは「回答速度」です。
即座に回答が始まり、5 秒程度で回答が完了しました。
そして、回答のクオリティもすばらしいです。
今回はブログをテーマにしましたが、「報告書」「手順書」など様々な場面で高い精度の回答が得られそうです!
はい、承知いたしました。技術ブログの作成を以下に示します。 --- <h2>はじめに</h2> 皆様、こんにちは!AI技術の進化は目覚ましく、私たちの働き方や生活を大きく変えつつあります。特に、生成AIの登場は、コンテンツ作成や問題解決の分野に革命をもたらしました。今回は、Google Cloudで利用できる生成AIの選択肢に焦点を当て、その中でも注目を集める「Gemini 2.0 Flash」の驚くべき能力について深掘りしていきます。この記事を読めば、Google Cloudにおける生成AIの活用方法が明確になり、皆様のビジネスやプロジェクトに新たな価値をもたらすヒントが得られるはずです。ぜひ、最後までお付き合いください。 <h2>Google Cloudにおける生成AIの選択肢を整理</h2> Google Cloudでは、様々なニーズに対応できるよう、多様な生成AIの利用方法が提供されています。以下に主な選択肢を整理しました。 <h3>Vertex AI PaLM API</h3> Vertex AI PaLM APIは、Googleが開発した大規模言語モデル(LLM)であるPaLMをAPI経由で利用できるサービスです。テキスト生成、翻訳、要約、コード生成など、幅広いタスクに対応できます。カスタマイズやファインチューニングも可能で、特定の分野に特化したモデルを作成することもできます。 <h3>Vertex AI Gemini API</h3> Gemini APIは、Googleの最新のマルチモーダルAIモデル「Gemini」を利用するためのAPIです。テキストだけでなく、画像、音声、動画などの様々なデータ形式を理解し、それらを組み合わせた高度な処理が可能です。複雑なタスクやクリエイティブなコンテンツ生成に強みを発揮します。 <h3>Gen App Builder</h3> Gen App Builderは、企業が独自の生成AIアプリケーションを構築するためのプラットフォームです。ノーコードまたはローコードで、チャットボット、検索エンジン、コンテンツ作成ツールなどを開発できます。ビジネスニーズに合わせた柔軟なカスタマイズが可能です。 <h3>その他のAPIやサービス</h3> 上記以外にも、Google Cloudには様々なAPIやサービスが提供されており、特定のニーズに合わせて生成AIを活用できます。例えば、Text-to-Speech APIでテキストから音声を生成したり、Vision AI APIで画像認識や分析を行ったりできます。 <h3>Gemini 2.0 Flash は何がすごい?</h3> Gemini 2.0 Flashは、Google DeepMindが開発した最新のAIモデルであり、特にその速度と効率性に注目が集まっています。CEOからのメッセージによると、Gemini 2.0 Flashは、以下のような特長を持っています。 * **高速処理:** Gemini 2.0 Flashは、従来のモデルと比較して大幅に高速な処理を実現しています。これにより、リアルタイムでの応答や大量データの迅速な処理が可能になります。 * **効率性:** 高速な処理に加え、モデルのサイズも最適化されており、計算リソースの消費を抑えることができます。これにより、コスト効率の高い運用が実現できます。 * **幅広いタスクへの対応:** Gemini 2.0 Flashは、テキスト生成、要約、翻訳、コード生成など、様々なタスクに対応できます。これにより、多様なニーズに対応できる汎用性の高さが魅力です。 * **マルチモーダル対応:** テキストだけでなく、画像や音声などのマルチモーダルな情報も統合的に処理できるため、より高度で複雑なタスクに対応できます。 * **最新技術の投入:** Gemini 2.0 Flashは最新の技術を投入して開発されており、より人間らしい自然な文章の生成や精度の高いタスク処理が可能です。 <h2>使ってみた</h2> (ここにコンソールキャプチャを挿入) <h2>まとめ</h2> 今回は、Google Cloudにおける生成AIの選択肢と、その中でも特に注目されるGemini 2.0 Flashについて解説しました。Gemini 2.0 Flashの驚くべき速度と効率性は、今後のAI技術の発展を加速させる可能性を秘めています。この記事が、皆様のビジネスやプロジェクトにおける生成AI活用の一助となれば幸いです。AI技術は常に進化し続けており、今後の展開も非常に楽しみです。ぜひ、Google Cloudの最新情報をキャッチし、生成AIの可能性を最大限に引き出してください! --- **キャプチャ挿入について** `使ってみた` の章のコンソールキャプチャは、実際にご利用された環境の画面キャプチャを挿入してください。 例: * Vertex AI の画面でGemini 2.0 Flashを利用した際のスクリーンショット * API ExplorerでGemini 2.0 Flashを試した際の画面キャプチャ 挿入する画像は、読者が具体的な利用イメージを持てるように、できるだけ具体的な操作内容を含んだものが良いでしょう。
主観が入りすぎた感想になるのですが、UI の見た目がとてもかわいいですね!
(2) Gemini 1.5 Flash
前世代である Gemini 1.5 Flash でも同様のプロンプトを実行してみましたが、クオリティの差がとても大きいですね!
また、実行完了まで 12 秒程度かかりました。
## はじめに 生成AIの進化は目覚ましく、私たちの生活や仕事のあり方を変えつつあります。中でも、Google Cloudは生成AIの活用において強力なツールを提供しており、様々な場面で革新的な可能性を秘めています。 この記事では、Google Cloudで生成AIを利用する方法を、具体的な選択肢とそれぞれのメリットを交えながら解説していきます。生成AIの導入を検討されている方は、ぜひ参考にしてください。 ## Google Cloudにおける生成AIの選択肢を整理 Google Cloudは、生成AIを様々な方法で活用できる環境を提供しています。以下に、代表的な選択肢を整理しました。 ### **1. Gemini 2.0 Flash: 次世代のAI体験** ### **2. Vertex AI: 生成AIモデルの構築・デプロイ** ### **3. Google AI Platform: 機械学習モデルの開発・運用** ### **4. Generative AI Studio: 対話型AIの構築・デプロイ** ## Gemini 2.0 Flash は何がすごい? Google Gemini 2.0 Flashは、Google DeepMindが開発した最新の生成AIモデルです。2024年12月のアップデートでは、以下の点が大きな進化ポイントとして挙げられています。 * **高度な言語理解能力**: より自然で人間らしい文章を生成できるようになりました。 * **複雑なタスクの処理能力**: 複数の情報源を分析し、複雑な問題を解決できるようになりました。 * **マルチモーダル対応**: テキスト、画像、音声などを統合的に処理できるようになりました。 * **安全性の向上**: バイアスや有害なコンテンツの生成を抑制する機能が強化されました。 ## 使ってみた [コンソールキャプチャを挿入] ## まとめ Google Cloudは、Gemini 2.0 Flashをはじめとした、強力な生成AIツールを提供しています。これらのツールを活用することで、企業は業務の効率化、顧客体験の向上、新たなビジネスモデルの創出など、様々な可能性を実現することができます。今後の生成AIの進化とGoogle Cloudの取り組みから目が離せません。
(3) Gemini 1.5 Pro
Gemini 1.5 Pro でも試してみましたが、こちらはさすがのクオリティです。
実行時間は 12 秒程度かかりました。
個人的には、この回答が最も望んでいた回答に近いかなと思います。
<h2>はじめに</h2> こんにちは!近頃、生成AIの進化が目覚ましく、様々なサービスが登場していますよね。業務効率化や新しい創作活動など、その可能性にワクワクしている方も多いのではないでしょうか? 特にGoogle Cloudは、強力な生成AIツールを豊富に提供しており、その活用方法を学ぶことで、私たちの生活や仕事は大きく変わると期待されています。 このブログでは、Google Cloudで利用できる生成AIの選択肢を分かりやすく整理し、それぞれの特長を解説します。さらに、最新のGemini 2.0 Flashについても詳しく掘り下げ、その驚異的な能力をご紹介します。実際に使ってみた様子もコンソールキャプチャ付きで紹介するので、ぜひ最後まで読んで、Google Cloudの生成AIの世界を一緒に探求しましょう! <h2>Google Cloudにおける生成AIの選択肢を整理</h2> Google Cloud で生成 AI を利用する場合、様々な方法があります。 <h3><Gemini>Gemini</h3> Googleが開発した大規模言語モデル。様々なタスクに対応できる汎用性の高さが特徴。 <h3><Vertex AI>Vertex AI</h3> Google Cloudの機械学習プラットフォーム。生成AIを含む様々なモデルのトレーニング、デプロイ、管理が可能。 <h3><Generative AI App Builder>Generative AI App Builder</h3> ノーコードで生成AIアプリを構築できるツール。迅速なプロトタイプ開発やビジネスへのAI導入を促進。 <h3>Gemini 2.0 Flash は何がすごい?</h3> Gemini 2.0 Flash は、Geminiファミリーの最新モデルであり、特に推論速度に重点を置いて開発されました。 https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#ceo-message からの主要なポイントは以下の通りです。 * **高速な推論:** Gemini 2.0 Ultra よりも最大4倍高速な推論速度を実現し、応答性の高いアプリケーション開発を可能にします。 * **高性能:** 高い精度を維持しながら、高速なパフォーマンスを発揮します。 * **効率性:** 計算効率が向上し、コスト削減にも貢献します。 * **多様なタスクに対応:** テキスト生成、翻訳、コーディングなど、様々なタスクで優れたパフォーマンスを発揮。 <h2>使ってみた</h2> (ここにコンソールキャプチャと利用例を記載ください) <h2>まとめ</h2> 今回はGoogle Cloudで利用可能な生成AIの選択肢を概観し、最新のGemini 2.0 Flashの特長を紹介しました。高速な推論速度と高い性能を両立したGemini 2.0 Flashは、生成AIの可能性を大きく広げるでしょう。今後、様々なアプリケーションが登場し、私たちの生活やビジネスをさらに変革していくことが期待されます。さらに、Google Cloudは生成AI分野への投資を継続しており、今後も新たな機能やサービスが登場するでしょう。引き続き最新情報を追いかけ、生成AIの進化を共に体験していきましょう!
どこかのタイミングで、その他の機能や特長についても、試してご紹介できればと思っています!
まとめ
今回のブログでは、Gemini 2.0 Flash について特長をご紹介し、利用方法をご案内しました。
マルチモーダルライブや native image output など、試せていない機能が多くありますので、
今後も追い続けたいと思います!!
テックブログ新着情報のほか、AWSやGoogle Cloudに関するお役立ち情報を配信中!
Follow @twitter2024 Japan AWS Top Engineers / Google Cloud Partner Top Engineer 2025 に選出されました! 生成 AI 多めで発信していますが、CI/CDやIaCへの関心も高いです。休日はベースを弾いてます。
Recommends
こちらもおすすめ
Special Topics
注目記事はこちら
データ分析入門
これから始めるBigQuery基礎知識
2024.02.28
AWSの料金が 10 %割引になる!
『AWSの請求代行リセールサービス』
2024.07.16