OpenAI の機械は、人工知能製品を作成するときに停止しません。非常に人気のあるChatGPT (そのGPT-5バージョンは見た目よりも近い可能性があります)、またはその最近の有望なSora (本物のように見えるほどリアルな最大 60 秒のビデオを作成するシステム) に続いて、同社は新しいソフトウェアを発表しました。人間の声をAIで再現できるボイスエンジン。
したがって、ディープフェイクが急増する一方で、OpenAI は音声をクローンする技術を完成させています…ただし、同社によれば、それは「責任を持って」行われているそうです。 Voice Engine は約 2 年間開発されており、既存のテキスト読み上げ API を拡張したものです。アイデアは次のとおりです。ユーザーが15 秒間の音声サンプルをアップロードして、その音声の合成コピーを生成できるようにします。
前述の Sora と同様、 Voice Engine はまだ一般公開されていません。実際、これは少数の企業を対象としたテスト段階にあり、OpenAI には一般リリースまでにモデルのデバッグを継続し、モデルの仕組みとその倫理的影響を説明するための時間的余裕が与えられています。
音声エンジンとは何ですか?またその仕組みは何ですか?
OpenAI が Voice Engine のプレゼンテーションに特化したブログ エントリで説明しているように、このソフトウェアの開発は 2022 年末に遡り、それ以来、Text-to-Speech API やChatGPT 音声および読み上げ製品。トレーニングというデリケートなテーマに関して、OpenAI の製品スタッフのメンバーである Jeff Harris 氏はTechcrunch に対し、ライセンスされたデータと公開されているデータを組み合わせて使用したとだけ答えました。
音声エンジンを使用するために必要なのは、必要な内容の説明 (プロンプト) を含むテキスト入力と、元の話者によく似た自然な音声のオーディオ クリップを生成する 15 秒のオーディオ サンプルだけです。基本サンプルは小さいですが、OpenAI は感情的で現実的な音声を作成できると主張しています。
ブログ エントリでは、トピック、言語、さらには目的 (単なるスピーチから質問) を変更した、リファレンスと生成された音声を含むいくつかのクリップを見つけることができます。オリジナルの音声と生成された音声を聞いてテストすると、特定の違いが見られますが、本物であるとみなされるのに十分な類似性があります(特に、そのスピーチがその人の言うことを期待している内容と一致している場合)。
OpenAI は、音声エンジンの考えられる用途の 1 つとして、必須サービスの提供を改善することで、自然音を使って生き物や読み方を知らない人々に読書支援を提供したり、コンテンツを翻訳したり、世界のコミュニティにリーチしたりすることができると提案しています。遠隔環境での、口頭コミュニケーションを使用しない人々のサポート、患者の声の回復支援など。
音声エンジンのリスク
音声エンジンには良い用途の可能性もありますが、政治家、有名人、ジャーナリストなどの声をシミュレートするだけで誤った情報を広めるのに最適なツールであるため、その悪の可能性について考えるのは避けられません。サンプル用の音声が豊富にあります。同様に、その専門知識を考慮すると、機密情報を危険にさらす可能性があるセキュリティに使用されるさまざまな音声認証システムを回避することができると考えられます。
OpenAIは、合成音声が悪用される可能性があるため、可用性の拡大に慎重なアプローチをとっていると説明している。同社によれば、「合成音声の責任ある展開と、社会がこれらの新しい機能にどのように適応できるかについて対話を開始したいと考えています。」より具体的には、OpenAI は、本物の録音と合成録音を区別できるようにする透かし入れシステムを実験しています。
こうした会話と小規模なテストの後、テクノロジーを大規模に実装するかどうか、またその方法を決定します。しかし今のところ、そしてソラと同様に、それは彼ができることを行う彼の能力を証明するだけです。
表紙 | UnsplashとWikimedia CommonsにあるMichal Czyzの写真付きモンタージュ
