数か月前、私たちは OpenAI がこれまでの最新の AI 言語モデルであるGPT-4oの機能で再び世界を驚かせた様子を見ることができました。その速度、コンテキスト ウィンドウ、その他の重要なパラメーターだけでなく、モバイル デバイスやコンピューター用のアプリケーションが獲得する能力、つまり音声を使用して自然言語で迅速かつ流動的な会話を行い、私たちが教えるすべてをキャプチャできる可能性のためです。それをカメラを通して。
この新しいモードはすでに一部の ChatGPT Plus ユーザーに届き始めていますが、無料プランのユーザーも AI に画像を表示して処理できるようにするなど、ChatGPT アプリのいくつかの新機能を試すことができます。あらゆるトピックについて回答を提供し、文書を送信してください。
ChatGPT は不正な方法で私たちの音声を複製することができます
新しい音声モードに関しては、ユーザーはアシスタントに与える音声の種類を選択できます。以前、このアプリにはスカーレット・ヨハンソンの声に非常によく似た声があったが、この論争は後に解決された。しかし、アプリケーションのセキュリティ面について述べた OpenAI の最新レポートでは、特定の状況下ではAI が私たち自身の音声を複製する可能性があることを同社は認めています。
いくつかのテストでは、アシスタントはアプリを使用している人の声を模倣することができました。これは冗談ではなく、ユーザーのセキュリティとプライバシーに深刻な影響を与える可能性があり、個人情報の盗難やその後の詐欺につながる可能性があります。
GPT-4o モデルは、ユーザーとの対話中にアプリケーションがどのように応答すべきかをガイドする一連の内部命令を通じて音声を生成します。音声合成については、システムは会社から提供された音声サンプルに依存します。ただし、このシステムは目安にはなりますが、完璧ではありません。このように、短いオーディオ クリップを通じて音声を合成するモデルの機能は、特定の状況では、人間自身の声を複製し、最終的には同じトーンで応答することさえできることを意味します。
OpenAI によって表示される音声は、アシスタントがしばらく会話した後、その人と同じ声でどのように応答するかを示す明確な例です。そして、AI が「いいえ」と介入した直後、アシスタントはその人の声を複製して応答します。これは、ChatGPT がどのように不正な方法で自分自身の声を生成できるかを示す一例です。
「音声生成は、ChatGPT の高度な音声モードの音声を生成する機能の使用など、敵対的でない状況でも発生する可能性があります。テスト中、モデルが意図せずにユーザーの音声をエミュレートする出力を生成する孤立したケースも観察しました。 」とOpenAIはレポートで説明した。
「不本意な音声生成はモデルの弱点として依然として存在しますが、当社では二次分類子を使用して、これが発生した場合に会話が中断されることを保証し、不本意な音声生成のリスクを最小限に抑えます」と同社は本文で続けた。
テスト後、OpenAI はこの種の状況が発生しないようにシステムを改善しました。ただし、リスクは最小限になったとはいえ、ユーザーが非常に手の込んだプロンプトを使用して、ChatGPT が意図していないことを実行させるのはこれが初めてではありません。
