📖
米国のいくつかの研究センターの専門家によって行われた最近の臨床研究では、ChatGPT-4 などの「大規模言語モデル」(LLM) が医療診断プロセスに及ぼす影響が調査されました。
そして結果は明らかになってきています。OpenAI プラットフォームと従来のリソースを併用した医師は、ボットにアクセスできなかった医師よりもわずかに良い結果しか得られませんでした…
…しかし、研究者たちが驚いたことに、自律的に動作する ChatGPT は両方の医師グループよりも優れた成績を収めました。
チャットボット vs.医者?
この研究には、さまざまな専門分野(内科、家庭医学、救急)の医師 50 名が参加し、参加者を 2 つのグループに割り当てました。1 つはチャットボットと従来の診断サポート ツールを使用したグループ、もう 1 つは従来のリソースを臨床データベースとしてのみ使用したグループです。さらに、自律的に動作するチャットボットの性能を評価した。
したがって、チャットボットを単独で使用した場合、診断推論の精度と質を測定する指標で平均スコア 92% を達成し、ツールにアクセスできる医師 (76%) とツールを使用しない医師 (74%) の両方を上回りました。 )。
人間の偏見とAIの活用不足
最も注目に値する驚きの 1 つは、チャットボットによって提案された別の診断を、たとえその方が正確だったとしても受け入れることに医師が抵抗したことです。この研究の共著者で内科学の専門家であるアダム・ロッドマン博士が説明したように。
「彼らは、人工知能が自分たちの考えと矛盾することを告げても、聞く耳を持ちませんでした。」
この発見は、医師が自分の判断に対する過信という、十分に裏付けられた現象を反映しています。
もう 1 つの重要な側面は、医師がチャットボットと対話する方法でした。多くの人は、事件全体を分析して構造化された推論を提供する機能を利用するのではなく、特定の質問をする従来の検索エンジンのようにそれを扱いました。すべての臨床情報を包括的に処理するツールを使用しているのは少数です。
AI モデルの未開発の可能性
LLM は、大量のデータでのトレーニングと自然言語を解釈する能力のおかげで、複雑な臨床問題を解決する優れた能力を実証してきました。研究では、チャットボットは正確な診断を生成しただけでなく、その結論の背後にある理由も詳細に説明しました。
これは、これらのツールが人間の判断を補完する際に貴重なセカンドオピニオンを提供できる「医療アシスタント」になる可能性があることを示唆しています。
しかし、この可能性を実現するには、これらのツールを効果的に使用する専門家を訓練することが不可欠です…そして、この研究の限界の一つとして、参加した医師がツールスタンドの使用に関する特別な訓練を受けていないという事実があります。チャットボットは、医療専門家による実際の使用レベルを反映していますが、AI の本当の可能性を過小評価しています。
医療におけるAI活用の先例
診断を支援するためにコンピューターを使用することは新しいことではありません。 1970 年代以来、研究者たちは、論理コードを通じて人間の推論を再現しようとする INTERNIST-1 のようなシステムを開発してきました。これらの取り組みは将来性を示していましたが、その複雑さと臨床医の信頼の欠如により、その採用は限られていました。
LLM の出現により、焦点は変わりました。これらのシステムは人間の推論を直接模倣するのではなく、以前のデータに基づいて言語パターンを予測することによって診断を生成します。使いやすい会話型インターフェイスにより、医師がコンピュータを操作する方法が変わりました。