📖
高度な数学は、計算やルールだけでなく、正確かつ創造的な論理的思考が必要なため、複雑な分野です。さらに、数学的な問題では多くの場合、文脈を深く理解する必要がありますが、現在の AI ではそれを習得できません。
このため、現在の AI モデル (GPT-4 など) は、コード、テキスト、画像の生成には非常に優れていますが、基本を超え、高度な推論を必要とする数学的問題に対処するとなると、期待されていた人工知能はすぐに挫折してしまいます。 。
FrontierMath が注目すべき課題である理由
はい、それは本当です。GSM/8K などのテストでは、 AI が 90% 以上のスコアを達成していますが、多くの場合、鍵となるのは、AI が以前に同様の問題で練習しただけで問題を解決できるという事実にあります (単なるケースです) 「汚染」)、データ」)。
現在、革新的な新しいベンチマークである FrontierMath は、AI が数学者に取って代わるには程遠いことを明らかにしています。
このテストは、これらの制限を明らかにするという特定の目標を持って Epoch AI によって設計されました。これらの問題は既存のトレーニング データセットとは異なり、暗記ではなく深い推論を必要とします。
さらに、答えは複雑であることが多く、推測することができません。これにより、AI は表面的なパターン認識などの近道を使用できなくなり、真の数学的理解を示すことが強制されます。
これらすべてにもかかわらず、GPT-4o や Gemini 1.5 Pro などの最も先進的なモデルでさえ、FrontierMath を形成するために使用された問題の 2% 未満しか解決できていません。
テレンス・タオやティモシー・ガワーズなどの著名な数学者は、この問題が数学オリンピックなどの国際競技会の問題よりもはるかに複雑であることを認識しています。 AI 専門家の Matthew Barnett 氏は、FrontierMat の重要性を次のように定義しています。
「FrontierMath について最初に理解すべきことは、それが実際には非常に難しいということです。たとえ各問題を解くのに丸 1 日を与えられたとしても、地球上のほとんどすべての人が約 0% のスコアを獲得するでしょう。私は、「FrontierMath が完全に解決されるまで、一度は」と主張します。 、人類はこの地球を、私たちと同じくらい知性のある人工の心を共有するようになるでしょう。」
数学と比較した AI の現在の限界
- 構造化された推論の欠如: AI はデータを線形に処理し、大量の情報の中からパターンを識別するように訓練されています。ただし、数学の問題では、明らかなパターンに従わない論理的な接続が必要になることがよくあります。
- 以前のデータへの依存: GPT-4o のような AI モデルは大量の情報を使用してトレーニングされていますが、これには一般化できない可能性のある特定の例が含まれています。 FrontierMath の問題のように、問題が新しい場合は、すでに「見た」ものに依存することはできません。
- 長い推論の連鎖の難しさ:数学的問題を解決するには、通常、正しくなければならない複数の手順が必要です。現在のモデルでは中間ステップでエラーが発生することが多く、最終結果が無効になります。
- 創造性の限界:高度な数学の問題の多くは、既知のプロセスを繰り返すだけではなく、革新的な解決策を必要とします。 AI はパターンを模倣するのは得意ですが、真に新しいアプローチを見つけるのは困難です。
改善への道
AI が数学の能力を向上させるには、高度な論理的推論と抽象化の能力を開発する必要があります。これには以下が含まれる可能性があります。
- 特殊なモデルを統合する:特定の数学ツールと言語モデルを組み合わせると、特定の問題をより適切に処理できる可能性があります。
- フィードバックから学ぶ:リアルタイムで間違いから学習して戦略を調整できる AI を設計します。
- コンテキストのより深い理解:パターンだけに依存するのではなく、問題の背後にあるより深い意味を解釈するようにモデルをトレーニングします。
経由 | ベンチャービート