1 年前、OpenAI の DevDay イベントの主役は、GPT-4 Turbo とカスタム GPT (およびそれらに対応する「ストア」) の発表でした。これらはメディアの関心とユーザーの注目を集めた目新しさでした…しかし「カバー」、つまり当時受けていたよりもはるかに注目に値することが時間の経過とともに示された新しいAIがありました。
ここで話しているのは、オープンソース AI (ChatGPT や DALL·E とは異なる) である Whisper V3 音声からテキストへの文字起こし AI です。そのため、 Hugging FaceやReplicateなどのプラットフォームやさまざまなデスクトップ クライアントを通じて無料でオンラインで使用できます。 (無料のBuzzや有料の WhisperScript クライアントなど)。
前後
つい最近まで、音声をテキストに書き写すことは、ほとんどのユーザーにとって常に課題でした。ユーザーが利用できる無料ツールでは多くのエラーが発生する傾向があったからです。 Whisper V2 は、多くのユーザーを納得させた最初の無料ツールでした…
…しかし、Whisper V3 に関しては、その分野では、100% 無料であるという部分を除いて、ChatGPT と同等であるという感覚を私たちはすでに持っています。ChatGPT は、ソフトウェア開発者がまもなく独自のアプリケーションに実装し始める予定の AI です。
さらに、その多用途性により、単純な文字起こしタスクと音声支援の分野でのより複雑なアプリケーションの両方に最適です。
Whisper V3 は何を提供してくれるのでしょうか?
Whisper V3 は、100 万時間以上のラベル付きオーディオと 400 万時間以上の疑似ラベル付きオーディオを使用してトレーニングされています。以前のバージョンと比較すると、Whisper V3 はエラーを 10 ~ 20% 削減することができました。スペイン語の場合、その誤り率は 5% 未満であり、このモデルで最もよく理解される言語の 1 つとなります。
Whisper V3 の最も注目すべき機能の 1 つは、マルチタスク機能です。複数の言語の認識と翻訳に使用できます。さらに、このモデルは、同じ会話内である言語から別の言語に切り替わったときを自動的に識別できるため、非常に多用途なツールになります。
さらに、OpenAI は、VRAM が 1 GB 未満の小さなバージョンから、15 億 5,000 万のパラメーターと要件でトレーニングされた大規模なモデルまで、さまざまなサイズ (したがってさまざまなパフォーマンス レベル) の Whisper V3 モデルをユーザーが利用できるようにしました。約10GBのVRAM。これにより、Whisper V3 はさまざまなアプリケーションやニーズに適応し、ユーザーに柔軟性を提供できます。