OpenAI は、その「言語モデル」 ( GPT-4などを含む AI のタイプ) がどのように機能するかをよりよく理解する方法を発見し、人工知能研究において大きな一歩を踏み出しました。そして、これらのシステムは複雑であるため、このタスクは常に非常に複雑でした。システムはこれまで、その内部を観察することが不可能なブラックボックスのようなものでした…AI の作成者自身にとってさえも。
また、エンジニアはコンポーネントの仕様に基づいて自動車を設計、評価、修理できますが、ニューラル ネットワークは直接設計されるのではなく、ニューラル ネットワークをトレーニングするアルゴリズムが設計されるため、完全には理解されず、簡単には分解できないネットワークが生成されます。識別可能な部分に。
もちろん、これにより、車の安全性について考えるのと同じように、AI の安全性について推論する作業が複雑になります。
AI をより深く理解するために、OpenAI の科学者は、より簡単に解釈できるモデル内の「特徴」またはパターンを探しています。それは、非常に複雑な機械内の特定の部品を識別しようとするようなものです。
OpenAIは「分散」テクノロジーに焦点を当てています
OpenAI は、AI モデル内でこれらの機能を見つけるための新しい技術を開発しました。彼らは GPT-4 でこれらのパターンのうち 1,600 万個を識別することに成功しました。これは大きな進歩です。これらのパターンが理解できるかどうかを確認するために、これらのパターンが有効になっているテキストの例が示されています。
これを実現するために、OpenAI はスパースオートエンコーダの使用を選択しました。これは、人間が状況について推論するときに念頭に置く小さな概念セットに似た、特定の出力を生成するために重要な少数の「特徴」を識別する手法です。 。
たとえば、彼らは、「人間の不完全性」、「物価上昇」、「修辞的質問」などのトピックで活性化される特定のパターンを発見しました…それは、私たちが認識して理解できる特定の情報を見つけるようなものです。
そして現在、OpenAI は、自社のスパースオートエンコーダーを高度な AI モデルの数千万の機能に拡張できる新しい方法論を開発しました。同社は、この技術の最初の結果を最先端モデルの動作の監視と調整に使用できることを期待しています。
重要なのは、OpenAI だけがこの取り組みに取り組んでいるわけではありません。Anthropic のような企業もスパースオートエンコーダの強化に取り組んでいます。
しかし、有望な進歩にもかかわらず、このテクノロジーの応用はまだ初期段階にあります。見つかったパターンの多くはまだ解釈が難しく、常に一貫して機能するとは限りません。さらに、AI をこれらのパターンに分解するプロセスでは、AI のすべての動作が捕捉されていないため、発見すべきことがまだたくさんあることを意味します。
「概念を高度な言語モデルに完全にマッピングするには、数十億または数兆の機能に拡張する必要があるかもしれません。これは、技術が向上したとしてもかなりの課題となります。」
経由 | OpenAI