何ヶ月にもわたる噂とユーザーからの要望を経て、Apple は独自の人工知能モデルであるApple Intelligenceを立ち上げました。人工知能 (AI) の頭字語を「流用」した非常にインテリジェントな戦略ですが、最終的にデバイスでテストできるようになるまでにはまだ数か月待つ必要があります。
しかしそれまでは、会社自体がWeb サイトで公開しているベンチマークを使用してそのパフォーマンスを評価することができます。大まかに言えば、パワーはこの AI の強みの 1 つではないと結論付けることができ、これが ChatGPT を備えた OpenAI などのサードパーティに頼らなければならなかったという事実を説明しています。
Apple IntelligenceはGPT-4 Turboを超えることができませんでした
実行されたテストの中で、Gemma や Mistral などの他のオープンソース モデルや、GPT-3.5 や GPT-4 Turbo などの商用モデルとの比較が際立っています。デバイス自体でローカルに開発された人工知能に対して実行されたテストでは、非常に優れたパフォーマンスが明らかになりました。
これらのテストでは、デバイス上でローカルに開発されたモデルとサーバー上で開発されたモデルが区別されます。ローカルで開発された AI はデータを公開せず、完全に安全であるため、これはプライバシーの観点から特に重要です。しかし、ここでは明らかにパワーが低下しています。
より要求の厳しいリクエストの場合は、iPhone や Mac の単一チップよりも多くの電力が必要になります。理論的にはより強力な外部サーバーを選択する必要があります。ただし、プライベート クラウド コンピューティング システムのおかげで、すべての情報は暗号化されて送信され、情報がプライベート エリアから流出しないことが保証されます。
具体的には、Phi-3-miniやMistralと比較して、それぞれ62%、46%のケースで上回ることが可能です。どちらのモデルもはるかに大型で、何よりも強力であるため、これには多くのメリットがあります。ただし、デバイスの外部で処理する必要があるアクションのために Apple のサーバー上にあるモデルの場合、これは起こりません。
この場合、OpenAI モデルと比較すると、結果がやや弱いことがわかります。最も重要なポイントの 1 つは GPT-4 Turbo にあり、Apple モデルでより適切に答えられるリクエストは 39.8% のみです。残りのケースでは、同点か、OpenAI モデルの方が優れています。
人間の評価者を対象に実施された研究について言えば、GPT-4 Turbo がいかに優れた比較エクスペリエンスを提供するかがはっきりとわかります。具体的には、リクエストの 28.5% が GPT-4 Turbo 上の Apple サーバーによって正しく応答されたということについて話しています。しかし、41.7% という大部分ではその逆が起こります。
(障害やエラーを考慮せずに) 絶対値でベンチマークを見ると、ローカル AI の分野では Apple の AI が 1 位であることも明らかです。しかし、 GPT-4 Turboが上にあり2位にあるサーバー上のAIについて話すとき、それは起こりませんが、この場合はほとんど差がありません。私たちが知らないのは、GPT-4o との違いです。
これらの結果は、Apple が受賞モデルを Siri に統合するには、受賞モデルの背後にある企業に頼る必要があったことを示唆しています。そして、ユーザーが現在慣れ親しんでいる結果に適合する結果が得られなかったため、最終的にはこれが最も賢明な決定でした。そして、私たちは皆、 GPT-4oのような機能に慣れており、現在では同社のオペレーティング システムにも適用されています。
セキュリティのセクションでは、ほとんどの比較で Apple オプションが勝者になるか、少なくとも同点であることがわかります。 AI 側が「敗北」する状況はほとんどありません。そして、普通ではないかもしれないいくつかの要求を求めるときに「戦う」ことは非常に難しいため、有害性についても同じことが起こります。