先月、Anthropic の AI Claude によるタスクの自動化における大きな進歩についてお話しました。そして責任者は、 AI が私たちのコンピューターを制御できる機能を導入しました。このようにして、クロードは、入力、カーソルの移動、Web ページの入力、さらにはスクリーンショットの撮影などのタスクを行うことができます。
Anthropic からさらに一歩進んで、AI が音声のみを使用して PC 上でタスクを実行できるようにする予定です。その結果は驚くべきものになり、システムがどのように動作するかを示すビデオも公開されました。これらの行の下にすべての詳細が記載されています。
あなたの代わりにPCを制御できるAI
OpenAI がChatGPT を世界に示して以来、生成 AI は大幅に進歩しました。さて、この同じ AI には高度な音声モードもあります。これは、リアルタイムでチャットするときの応答の自然さと速度のおかげで、非常に驚くべきことです。
元 OpenAI メンバーによって設立された会社 Anthropic も、言語モデルで人工知能の最前線に立っています。その Claude AI は優れた機能を提供しており、ChatGPT をうらやむような点は何もありません。実際、今では音声で PC を制御することもできます。
同社は、Hume AI とその「共感音声インターフェース」(EVI) と連携して、クロードの応答に優れた自然さと「感情」を提供します。これは、クロードが私たちのリクエストを処理すると、AI が私たちの PC を制御できるようにするために欠けていた要素でした。
添付したビデオでは、ユーザーが非常に自然な方法でクロードと対話し、必要に応じて会話を中断する様子がわかります。ここで EVI とクロードはタスクを共有します。 EVI は私たちのリクエストを解釈してクロードに送信し、クロードはリクエストを実行してテキストで応答し、EVI がそれを読みます。
このプロジェクトのアイデアは、AI に声を指示するだけで PC 全体を制御できるというものです。このようにして、Anthropic から見せられたのと同じくらい自然な声で AI と会話しながら、タスクの自動化をスピードアップします。ビデオでは、ユーザーが AI にブラウザを開いてチェスをプレイするよう依頼し、駒を動かす指示も送信する様子がわかります。
「Claude と EVI を統合することで、私たちは本当に特別なものを生み出しました。 「クロードの自然言語能力と性格は、EVI の表現と共感の理解を補完するため、EVI はクロードの反応を「演じ」、非常に人間味のある流動的で文脈を意識した会話を生み出すことができます」とヒュームの創設者アラン・コーウェン氏は記事で説明しました。同社の公式ブログ。 「クロードはとても雄弁です。 「彼は本当に良い性格を持っていて、人々は会話を楽しんでいます」と彼は続けました。
AI が私たちのコンピューターを制御することには利点もありますが、この記事を読んでいるあなたは、AI がもたらす可能性のあるあらゆる悪影響についても考えていたはずです。確かに、AI にこの機能を与えることは、私たちのプライバシーを完全に侵害することになります。なぜなら、このプロジェクトがさらに進めば、いくつかの例を挙げると、AI は私たちのメッセージング アプリやブラウザの履歴さえも制御できるようになるからです。これは大きな進歩ですが、Anthropic と Hume AI がこの方法で AI と対話するときにユーザーのプライバシーをどのように扱うかを見るのは興味深いでしょう。