人工知能に基づくテクノロジーのおかげで達成されたマイルストーンの中には、単純なテキストの説明を通じて画像を生成できるツールが含まれます。だからこそ、 DALL-EやStable Diffusion のようなツールが一般に公開されたとき、AI の機能を直接学ぶことができ、テクノロジー業界に衝撃を与えたのです。
今日、 AI を使用して画像を生成することは、多くの人、企業、組織の日常生活となっています。 Stable Diffusion に関する Stability AI の進歩は、特にSDXL 1.0モデル以降のリリース後、驚くべきものでした。現在、彼らはテキストによる説明だけを含むビデオ クリップを生成する機能を備えたさらに大きな一歩を踏み出したいと考えています。
AIを使った動画生成がこんなに簡単に
これに基づいて、Stability AI は Stable Video Diffusion を正式に発表します。タイトルから想像できるように、見たいものを簡単に説明するだけで、人工知能を使用してビデオを生成できるツールです。これを実現するために、このプロジェクトは高解像度ビデオを生成するための複雑な言語モデルに基づいています。
非常に大まかに言えば、現在の言語モデルによって実現されるビデオ生成は 2D 画像のトレーニングに基づいており、タイム レイヤーを適用することで小さなビデオ クリップを生成することが可能でした。同社が発表した論文によると、Stability AIの手法は、テキストから画像への事前トレーニング、ビデオ事前トレーニング、高解像度ビデオ調整という3つの主要なキーで構成されている。
このモデルは、単一の画像から複数の視点からのビューを生成する機能など、さまざまなタスクに適応できます。同社は、Stable Diffusion を中心に構築したエコシステムに似た、この基盤を拡張するさまざまなモデルを今後も発表していく予定です。
このツールの発売は、人工知能によるコンテンツ生成の最前線にある同社にとって、大きな進化の一歩となる。
Stability AI は、モデルのコードをGithubとHugging Face の両方で公開し、ローカルで実行できるようにしました。ただし、このツールを直接試してみたい人は、Stability AI の公式 Web サイトからアクセスできる待機リストに登録する必要があります。
同社は今のところ、このツールはもっぱら研究目的であり、このツールが設置されている州では商業目的はまだ考慮できないと断言している。順番待ちリストに載って入学を許可された人は、新しい言語モデルによるビデオ生成専用の Web インターフェイスを見つけることになります。
