最新AIは日本の医師国家試験を突破できるか?
金田侑大(北海道大学医学部)
【まとめ】
・2023年2月の日本医師国家試験をChatGPTに解かせたところ、高い正解率だった。
・ChatGPTのユーザー数増加につれて、正答率は自然に向上していく可能性が高い。
・性能がさらに向上すれば、診断や治療方針決定の補助に使用される可能性が示唆されました。
OpenAIの最新モデルChatGPT
高い正答率(55.0%)も合格点には届かず
⚫ 2022年11月30日にOpenAIによってリリースされたChatGPTを用いて、2023 年2月に実施された第117回日本医師国家試験の問題を解かせ、その回答の正答率を算出しました。
⚫ 全400問中ChatGPTにより何らかの回答が生成された問題は389問で、その正答率は、55.0%でした。得点率は、必修問題が68.5%、一般臨床問題が51.0%と、どちらの合格基準も満たすことはできませんでした。
⚫ 画像問題に関しても、問題文のみを入力して解かせたところ、その正答率は 51.5%と高い値を示しました。
⚫ 日本語環境下での臨床現場での実装レベルにはまだ達していませんが、性能がさらに向上すれば、診断や治療方針決定の補助に使用される可能性が示唆されました。
⚫ 本研究結果の医学論文のプレプリントを2023年3月10日(木)にPreprints.org で公開しました。
————————————————————————————————–
以上がお忙しい方向けの、今回の研究のまとめです。以下、閑話休題です。
「侑大は何でも答えてくれるから助かるわ」
私には弟がいますが、彼が私に抱いてくれている信頼は厚いです。勉強から恋愛に至るまで、彼よりも5年も先に生まれた私は、自分の“痛い”経験から、涙を流しながら多くのことを学んできました。
その計算はここの公式が間違ってるよ。
そのポケモンはここに努力値振った方がいいよ。
その女の子、追いかけて大丈夫?
親友のような感じで、弟は私の発言の多くを、ふんふんと頷いて受け入れてきてくれたと思います。わからないことでも周りに聞ける人がいて、弟に生まれるって得だよなぁと、私自身も常に思いながら生きてきました。
ただ、そんな時代にはもう終わりが来そうで、これまでの私の役目だった弟の人生相談も、そのうちAIに取って代わられてしまうかもしれません。
ChatGPTを初めて利用した時の衝撃は、それはもう日本語では名状しがたいものでした。どのような質問を入力しても、人間との会話のように、自然な文章を生成して返してくれるのです。
「嘘だろ、これが一般人の手に収まる時代なのか。」
その日のうちに毎月20USDのサブスクリプションを登録しました。2022年11月30日にOpenAIによりリリースされた後、ユーザーは1週間で100万人、現在では1億人以上が全世界でアカウントを持っていると推定されています。いつの日か、全員がChatGPTを片手に、学校の宿題に挑み、日常の健康問題を相談し、時には専門家が論文を書く、そんな時代もくるかもしれないな、と率直に思いました。
ChatGPTは、特定の分野に特化したトレーニングを受けていないにもかかわらず、法律やビジネスなどの分野において、大学院レベルの専門知識を仮定した試験において、合格点、またはそれに近い結果を既に達成しています。
さらに、追加のトレーニングや学習なしに、米国医師免許試験(USMLE)でも合格点に近い成績を達成したことが報告されています。臨床現場で既に実用されている画像情報をもとにしたAIのように、言語情報を利用して、臨床現場における診断や治療方針の決定のための補助要員として利用されることが期待されます。
臨床現場でのChatGPTの有用性は、様々な試験を解かせ、現段階での性能を評価することで、推定が可能です。そこで、私たちの研究では、2023年2月に実施された第117回日本医師国家試験を用いることで、ChatGPTが日本の臨床現場でどの程度活用できる可能性があるかを調査しました。
結果としては上述の通りで、全400問中ChatGPTにより何らかの回答が生成された問題は389問で、その正答率は55.0%でした。得点率は、必修問題が68.5%、一般臨床問題が51.0%でした。合格基準である必修問題の80%、一般臨床問題の70%はどちらも達成することはできませんでした。
しかしながら、ランダムチョイスの場合の得点は20%程度であるため、現段階で、それをはるかに上回る性能が示されました。具体的には、日本の医学部の6年生ぐらいのレベルでしょうか。ChatGPTは、OpenAIの以前のGPT-3.5言語モデルをベースに開発されており、教師あり学習と強化学習の両方から機能が強化されます。そのため、ユーザー数が増加するにつれて、正答率は自然に向上していく可能性が高く、今後、臨床シナリオでChatGPTを効果的に活用する方法を探求することが、患者の利益を最大化するために重要であると結論付けました。
今回の研究では、尾崎章彦先生(ときわ会常磐病院)、谷本哲也先生(ナビタスクリニック川崎)、佐藤智彦先生(東京慈恵会医科大学付属病院)、高橋謙造先生(帝京大学)の4名の先生方にご指導いただき、データ収集から論文の作成に至るまで、大変多くのアドバイスをいただきました。心より感謝申し上げます。
掲載:Preprints.org
論文題目: Can ChatGPT Pass the 2023 Japanese National Medical
Licensing Examination?
掲載日: 2023年3月10日(木)
URL: https://www.preprints.org/manuscript/202303.0191/v1
著者: 金田侑大、谷本哲也、尾崎章彦、佐藤智彦、高橋謙造
【金田侑大 略歴】
北海道大学医学部医学科の歩くグローバル。2021年9月から2022年7月までイギリスのエディンバラ大学に留学し、医療政策・国際保健を学んだ。ちなみにですが、私が今年の医師国家試験を、自力で解いた際の得点率は29%でした。続編の論文のタイトルは、“金田侑大は2年でAIを抜かせるか”、です。乞うご期待!!
**本記事は、MRIC by 医療ガバナンス学会『Vol.23046 最新AIは日本の医師国家試験を突破できるか?』 2023年3月13日に掲載されたものの転載です。
トップ写真:Chat GPT(イメージ)出典:Photo by Leon Neal/Getty Images
あわせて読みたい
この記事を書いた人
金田侑大
スイスはフラウエンフェルト出身。母は日本人、父はドイツ人というバックグラウンドで育つ。私立滝中学校、私立東海高等学校を経て、現在は北海道大学医学部医学科4年に在学中。2021年9月より1年間イギリスのエディンバラ大学に留学し、医療政策や国際保健といった分野を学んだ。ハリーポッターの地、エジンバラで魔法使いになるべく一年修行するも、残念ながらマグルだったようで無念の帰国。将来、図らずも病院に来ることになってしまったたくさんの方々を、笑顔にして見送れる魔法を使えるように、北海道の病院で再修行させていただいております。