ホーム ツール Stable Diffusion の作成者は、テキストから AI ビデオを生成するツールを起動します: Stable Video Diffusion

Stable Diffusion の作成者は、テキストから AI ビデオを生成するツールを起動します: Stable Video Diffusion

人工知能に基づくテクノロジーのおかげで達成されたマイルストーンの中には、単純なテキストの説明を通じて画像を生成できるツールが含まれます。だからこそ、 DALL-EやStable Diffusion のようなツールが一般に公開されたとき、AI の機能を直接学ぶことができ、テクノロジー業界に衝撃を与えたのです

今日、 AI を使用して画像を生成することは、多くの人、企業、組織の日常生活となっています。 Stable Diffusion に関する Stability AI の進歩は、特にSD​​XL 1.0モデル以降のリリース後、驚くべきものでした。現在、彼らはテキストによる説明だけを含むビデオ クリップを生成する機能を備えたさらに大きな一歩を踏み出したいと考えています。

AIを使った動画生成がこんなに簡単に

これに基づいて、Stability AI は Stable Video Diffusion を正式に発表します。タイトルから想像できるように、見たいものを簡単に説明するだけで、人工知能を使用してビデオを生成できるツールです。これを実現するために、このプロジェクトは高解像度ビデオを生成するための複雑な言語モデルに基づいています。

非常に大まかに言えば、現在の言語モデルによって実現されるビデオ生成は 2D 画像のトレーニングに基づいており、タイム レイヤーを適用することで小さなビデオ クリップを生成することが可能でした。同社が発表した論文によると、Stability AIの手法は、テキストから画像への事前トレーニング、ビデオ事前トレーニング、高解像度ビデオ調整という3つの主要なキーで構成されている。

AI画像生成「Stable Diffusion」 の動画版【Deforum Stable Diffusion】でテキストからムービーを生成してみた。モチーフは”18世紀の肖像画”。

このモデルは、単一の画像から複数の視点からのビューを生成する機能など、さまざまなタスクに適応できます。同社は、Stable Diffusion を中心に構築したエコシステムに似た、この基盤を拡張するさまざまなモデルを今後も発表していく予定です。

このツールの発売は、人工知能によるコンテンツ生成の最前線にある同社にとって、大きな進化の一歩となる。

Stability AI は、モデルのコードをGithubHugging Face の両方で公開し、ローカルで実行できるようにしました。ただし、このツールを直接試してみたい人は、Stability AI の公式 Web サイトからアクセスできる待機リストに登録する必要があります。

同社は今のところ、このツールはもっぱら研究​​目的であり、このツールが設置されている州では商業目的はまだ考慮できないと断言している。順番待ちリストに載って入学を許可された人は、新しい言語モデルによるビデオ生成専用の Web インターフェイスを見つけることになります。

人工知能に基づくテクノロジーのおかげで達成されたマイルストーンの中には、単純なテキストの説明を通じて画像を生成できるツールが含まれます。だからこそ、 DALL-EやStable Diffusion のようなツールが一般に公開されたとき、AI の機能を直接学ぶことができ、テクノロジー業界に衝撃を与えたのです

今日、 AI を使用して画像を生成することは、多くの人、企業、組織の日常生活となっています。 Stable Diffusion に関する Stability AI の進歩は、特にSD​​XL 1.0モデル以降のリリース後、驚くべきものでした。現在、彼らはテキストによる説明だけを含むビデオ クリップを生成する機能を備えたさらに大きな一歩を踏み出したいと考えています。

AIを使った動画生成がこんなに簡単に

これに基づいて、Stability AI は Stable Video Diffusion を正式に発表します。タイトルから想像できるように、見たいものを簡単に説明するだけで、人工知能を使用してビデオを生成できるツールです。これを実現するために、このプロジェクトは高解像度ビデオを生成するための複雑な言語モデルに基づいています。

非常に大まかに言えば、現在の言語モデルによって実現されるビデオ生成は 2D 画像のトレーニングに基づいており、タイム レイヤーを適用することで小さなビデオ クリップを生成することが可能でした。同社が発表した論文によると、Stability AIの手法は、テキストから画像への事前トレーニング、ビデオ事前トレーニング、高解像度ビデオ調整という3つの主要なキーで構成されている。

AI画像生成「Stable Diffusion」 の動画版【Deforum Stable Diffusion】でテキストからムービーを生成してみた。モチーフは”18世紀の肖像画”。

このモデルは、単一の画像から複数の視点からのビューを生成する機能など、さまざまなタスクに適応できます。同社は、Stable Diffusion を中心に構築したエコシステムに似た、この基盤を拡張するさまざまなモデルを今後も発表していく予定です。

このツールの発売は、人工知能によるコンテンツ生成の最前線にある同社にとって、大きな進化の一歩となる。

Stability AI は、モデルのコードをGithubHugging Face の両方で公開し、ローカルで実行できるようにしました。ただし、このツールを直接試してみたい人は、Stability AI の公式 Web サイトからアクセスできる待機リストに登録する必要があります。

同社は今のところ、このツールはもっぱら研究​​目的であり、このツールが設置されている州では商業目的はまだ考慮できないと断言している。順番待ちリストに載って入学を許可された人は、新しい言語モデルによるビデオ生成専用の Web インターフェイスを見つけることになります。

最新記事一覧