日曜日はセミナー資料のアップデートをしていました。
生成AI関連のセミナーはワークショップを絡めるパターンが増えており、その仕込みをしていました。
それに合わせて資料の追加・修正もしていますが、画像、動画、音声といったGoogleのマルチモーダル機能が面白いです。
例えば、新しくリリースされたImagen4では、かなりリアルで自然な画像を作ってくれます。
現状ではGeminiから直接Imagen4を使えるか不明(モデルが表示されない)ですが、WhiskというGoogleサービスを使うと試せます。
Whilskは以前からあるツールですが、人物と背景を組み合わせたり、スタイルを変えたりできるので楽しいです。
また、WhiskではImagen4で作った画像から動画を作ることもできます。
現状ではこの動画のモデルはVeo3ではなくVeo2のようですが、それでも十分に実用的な品質を保っています。
ちなみにVeo3はGemini(有料)やFlowで生成することができ、FlowはWhiskと同じくクレジット消費になります。
画質がすごいのはもちろんですが、動画に合わせた音も生成してくれるのが驚きでした。
GoogleのAIといえば、よく話題になっているNotebookLMもあります。
また、GeminiにもPDFやPPTをアップロードすると、その内容を日本語音声で説明してくれる機能が実装されました。
GoogleAIStudioには、GeminiSpeechGenerationという機能が付き、音声生成を試すことができます。
これがNotebookLMのポッドキャスト機能の元になっているようで、1人もしくは2人での日本語音声で生成してくれます。
Googleといえば、元々Geminiができた時に「生粋のマルチモーダル」であることがウリでした。
Googleサービスの連携がよく話題になりますが、このマルチモーダルの部分に目を向けてみると、面白いことが色々あると思います。
また、GoogleのAIサービスは有料にすると、Geminiだけではなく、NotebookLMやWhisk、FlowもPro版(クレジット消費)になります。
そういう意味では、有料課金がお得(?)なのかもしれません。






