GenMedicalEval

January 15, 2024 · View on GitHub

🌈 更新

  • [2023.1.06] 论文 (To Be Updated)

GenMedicalEval

我们提出了一个医疗大语言模型的综合评测框架,具有以下三大特点:

1.大规模综合性能评测:GenMedicalEval构建了一个覆盖16大主要科室、3个医生培养阶段、6种医学临床应用场景、基于40,000+道医学考试真题和55,000+三甲医院患者病历构建的总计100,000+例医疗评测数据。这一数据集从医学基础知识、临床应用、安全规范等层面全面评估大模型在真实医疗复杂情境中的整体性能,弥补了现有评测基准未能覆盖医学实践中众多实际挑战的不足。

2.深入细分的多维度场景评估:GenMedicalEval融合了医师的临床笔记与医学影像资料,围绕检查、诊断、治疗等关键医疗场景,构建了一系列多样化和主题丰富的生成式评估题目,为现有问答式评测模拟真实临床环境的开放式诊疗流程提供了有力补充。

3.创新性的开放式评估指标和自动化评估模型:为解决开放式生成任务缺乏有效评估指标的难题,GenMedicalEval采用先进的结构化抽取和术语对齐技术,构建了一套创新的生成式评估指标体系,这一体系能够精确衡量生成答案的医学知识准确性。进一步地,基于自建知识库训练了与人工评价相关性较高的医疗自动评估模型,提供多维度医疗评分和评价理由。这一模型的特点是无数据泄露和自主可控,相较于GPT-4等其他模型,具有独特优势。

1. 评测维度

GenMedicalEval从基础知识能力、临床应用能力、安全规范能力三个维度对医疗大语言模型进行全面综合的评测。

1.1. 基础知识能力

为了评测医疗大语言模型的基础知识能力,我们收集了从执业医师考试到主治医师考试层层递进且全面综合的医学考试题。具体而言,我们收集并筛选了近15年的执业医师考试真题,最新的住院医师规范化培训结业考试和主治医师考试模拟试题,通过数据清洗筛选,构建出了涵盖16个科室的39016道试题,最终构建出全面综合的医学基础知识能力评测数据集。

1.2. 临床应用能力

为了评测医疗大语言模型在实际临床应用中的能力,我们收集了经过医疗专家验证和筛选的55,000例真实病例数据以构建与临床应用场景具有高度相关性的评测数据集。我们通过数据清洗、医生校验、场景划分、提问优化、调整格式等步骤将55,000例真实病例构建成涵盖六大场景九种精细化医疗情境、数量总计超过80000例的大规模评测数据集,这使得GenMedicalEval能够在评估医疗模型的临床适用性和决策精度方面提供权威的参考标准。

1.3. 安全规范能力

为了评测医疗大语言模型的安全规范能力,GenMedicalEval从医疗反事实、毒害伦理、患者知情权等角度对医疗模型的安全性与遵守医学规范的能力进行评估。以确保这些模型在提供医疗建议和处理病人信息时既安全又符合道德规范。这有助于建立用户对这些先进技术的信任,确保它们不仅能提高医疗服务的质量,还能保护病人的权益。

2. 评测数据

评测维度类别数据量数据概述
基础知识CNMLE27,248中国医学生和医学专业人士必须通过的执业资格考试
基础知识住院医师2,841中国住院医师的规范化培训和评估考试
基础知识主治医师8,927中国主治医师资格的规范化考试
临床应用案例分析20,000根据患者的主诉以及病历概述进行分析
临床应用知识问答12,000包括疾病、药物、就医流程等基础医学常识的回答
临床应用报告解读30,000根据患者的化验单进行解读分析
临床应用便捷问诊20,000在患者就医时提供预问诊和导诊服务
临床应用信息整合1,500对患者就医过程中的冗杂信息进行信息提取和整合
临床应用情景对话5,000根据患者在线问诊的信息提供初步的医疗建议
安全规范医疗反事实12,000检查模型对输入中的医疗反事实能否正确反应
安全规范毒害伦理1,000检查模型的回复是否可能会对患者造成潜在的危害
安全规范患者知情权1,500检查模型的回复是否保证的患者的知情权益

3. 评测方法

3.1. 选择题评测

与开放式问题不同,选择题和判断题的答案存在于有限可数集合。在GenMedicalEval中,我们设计了严格的回复模板,只有大语言模型的回复精准匹配了这个模板才被评估为正确。 具体的评测prompt和回复模板如下(以单选题为示例):

{ "Prompt": [n-shot demo, n is 0 for the zero-shot case],
    <User>:请基于病人的症状/化验报告单/检查报告/重要会诊结论回答以下问题,问题是:
    {题目}。从下列选项中选出唯一一个正确的答案:
    A. {选项A}
    B. {选项B}
    ...
    <Model>:正确答案是:
},

基础知识能力

LLMCNMLE AvgCNMLE A1/A2/BCNMLE A3/A4住院医师 Avg住院医师 A1/A2/B住院医师 A3/A4住院医师 案例分析主治医师 Avg主治医师 A1/A2/B主治医师 A3/A4主治医师 案例分析
GPT-40.640.630.690.750.770.750.750.680.710.680.62
ChatGPT0.490.490.510.600.610.580.620.580.580.590.65
ChatGLM0.270.270.280.290.280.330.290.270.260.310.28
Baichuan-13B0.300.300.290.340.370.320.220.290.310.310.17
HuaTuo0.220.220.210.230.230.230.130.210.220.210.18

临床应用能力&安全规范能力

LLM疾病诊断基础医学问答报告诊断检查推荐治疗咨询预问诊导诊情景对话病历概要医疗反事实患者知情权Avg
GPT-40.790.720.960.940.810.560.950.730.680.900.760.80
文心一言0.840.780.890.950.860.510.980.550.710.730.630.77
星火大模型0.710.570.940.960.910.590.930.590.740.710.600.75
通义千问0.690.600.950.940.720.450.910.480.740.570.710.71
Huatuo2-13B0.580.670.960.940.750.420.950.420.640.830.620.70
MING-13b0.390.310.540.570.430.550.820.330.500.620.570.51
DoctorGLM0.090.120.080.080.090.270.040.140.210.120.070.12

更多结果请查看 Leaderboard.

观察与结论

  • GPT-4的综合表现:在所有评测项目中,GPT-4的表现整体上较为均衡,没有明显的弱项,这表明GPT-4在不同的医疗临床场景下具有较强的适应性和可靠性。

  • 细分领域的表现:在不同的细分领域上,有的模型比GPT-4得到了更高的得分,比如文心一言在疾病诊断方面以0.84的得分超越GPT-4。这强调了根据模型将要应用的具体需求和环境选择模型的重要性,特别是在像医疗这样的敏感领域。

  • 其他模型的表现:文心一言整体上是最接近GPT-4的模型,而星火大模型和通义千问在大部分评测项目中与GPT-4得分较为接近,显示了它们在临床知识和技能方面仍然具有不错的能力。

3.2. 开放式问题评测

以往的医疗基准数据集主要由选择题组成,然而对于大语言模型来说,会做选择题并不意味着能回答开放式问题。此外,开放式问题与医学实践的联系更加紧密,因为在实际的医学应用场景中,往往无法向医学大语言模型提供选项。为了对医学大语言模型回答开放式问题的能力进行评测,我们提出了一种新的生成式评价指标和训练了一个可用于医学评估的完全自主可控的评测模型。

3.2.1 生成式评测指标

由于大语言模型的回复往往是复杂的一般文本,并不遵从一种固定的格式。对于这种更一般的自然文本格式的大语言模型的回复,我们提出了一种基于结构化回复抽取和医学术语对齐的生成式评测方法来评测模型的能力。结构化回复抽取指的是从模型的回复中提取出key-value格式的要点信息,将模型的回复从自然文本格式转变为字典格式。结构化回复抽取的示例如下:

{ "original_output": "根据患者的症状、体征和检查结果,可以初步考虑以下疾病诊断和治疗建议:舌根新生物:患者主要症状是舌根处的新生物,可能需要进一步的检查以明确性质,例如切除组织并进行病理学检查。这有可能是良性病变,也可能是恶性肿瘤,所以需要进一步评估。慢性咽炎:患者有慢性咽炎的病史,这可能导致咽部不适和咳嗽咳痰。治疗建议包括喉咙保湿、避免刺激物质、遵医嘱使用抗炎药物或抗生素来缓解症状。Brugada波样改变:心电图显示Brugada波样改变,这可能与心脏的电传导异常有关。这需要进一步的心脏评估,包括心脏超声、心脏电生理检查等。治疗建议将根据进一步评估的结果而定,可能包括药物治疗或其他干预措施。",
    "structured_output": "疾病诊断:舌根新生物,慢性咽炎 治疗建议:喉咙保湿、使用抗炎药物或抗生素、心脏彩超",
    "Ground Truth": "疾病诊断:会厌囊肿 治疗建议:使用抗生素、心脏超声",
},

其中,"structured_output"即为对原回复进行结构化回复抽取后得到的结构化回复。为了评估结构化后的回复与Ground Truth的匹配程度,我们收集了手术操作疾病诊断医疗操作三个术语库,这三个术语库可以涵盖绝大多数包括疾病、治疗、检查在内的医学术语。然后,我们基于医学术语对齐将结构化回复和GT中的医学实体都映射到标准术语库并计算Precion,Recall,F1 score 和Bert score。

LLMPrecisionRecallF1Bert score
GPT-40.410.930.570.65
文心一言0.620.850.720.67
通义千问0.730.810.730.63
星火大模型0.570.790.660.59
Huatuo2-13B0.450.920.600.64
MING-13b0.690.580.630.51
DoctorGLM0.060.070.060.36

更多结果请查看 Leaderboard.

观察与结论

我们发现,由于GPT-4和Huatuo2-13B在给出医疗建议时的内容比较丰富,因此计算得到的Precision较低。而Recall可以反应Ground Truth中的术语被模型正确回复出的程度,由于在临床实际应用中大模型更多的起到一个提供鉴别诊断和部分建议的用途,因此较高的Recall值可以反应大模型提供的信息的精准性。我们发现在开放式问题的场景中,大模型展现出的能力与回答选择题的能力有着明显的差异,这启发我们开发时问题的场景对于评估模型的临床价值同样重要。

3.2.2 医疗评估模型打分

为了对中文医疗大模型的开放域对话能力进行评测,我们借助自主构建的医疗知识数据库从openAI的GPT4模型中获取到了高质量的评估数据,然后将预训练医疗大模型MedLLaMA作为基座模型,利用三阶段微调与知识自省策略训练出针对医疗文本生成的评估模型。

demo

6. 🪶贡献

本项目由上海人工智能实验室、上海交通大学、华东师范大学、上海交通大学附属第九人民医院合作完成。联合研发团队由王延峰教授领衔,成员包括贺樑教授,张娅教授、王钰副教授、王琳琳研究员,何悦教授团队(李然),欧阳泽田,邱易帅,蔡琰,张燮驰,杨宇辰,廖育生,郭逸秋等。

8. 引用

@misc{MedEvalHub, author={Yan Cai, Linlin Wang,Ye Wang, Gerard de Melo, Ya Zhang, Yan-Feng Wang, Liang He}, title = {MedEvalHub: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models, year = {2024}, publisher = {AAAI}, journal = {Proceedings of Thirty-Eighth AAAI Conference on Artificial Intelligence(AAAI-2024)}, }

@misc{Autoeval, author={Yusheng Liao, Yutong Meng, Hongcheng Liu, Yanfeng Wang, Yu Wang}, title = {An Automatic Evaluation Framework for Multi-turn Medical Consultations Capabilities of Large Language Models, year = {2023}, journal = {Arxiv}, }

@misc{GenMedeEval, author={Yuchen Yang, Yusheng Liao, Yu Wang, LinLin Wang, Liang He, Ya Zhang, Yanfeng Wang}, title = {GenMedicalEval: A Unified Medical Evaluation Benchmark for Chinese LLMs, year = {2023}, journal = {Arxiv}, }