Fleming-R1: Toward Expert-Level Medical Reasoning via Reinforcement Learning
September 29, 2025 · View on GitHub
🤗 Fleming-R1-7B | 🤗 Fleming-R1-32B | 📑 Paper | 中文 | English
📖 模型简介
Fleming-R1 是一款面向医学场景的推理模型,能够对复杂问题进行逐步分析并给出可靠答案。模型采用“思维链冷启动”与大规模强化学习的训练范式。在多项医学评测中,7B 版本在同量级中达到 SOTA;32B 版本的表现接近更大规模的 GPT-OSS-120B,并在中文任务上更具优势。
模型特点:
- 面向推理的数据策略 结合公开医学数据集与知识图谱,提高了对罕见疾病、药物和多跳推理链的覆盖;
- 思维链冷启动 使用从教师模型中提炼的高质量推理轨迹,引导模型掌握基本的推理模式;
- 两阶段强化学习 通过自适应负样本挖掘,提高模型面对困难问题时的推理能力。
📰 NEWS
- 2025.09.29: 我们发布了模型训练过程中使用到的基于知识图谱构建的COT数据以及对应的子图,包括中文和英文版本COT数据共35,256条,中文17,512条,英文17,844条,子图20,000张。数据保存在./data文件夹中。
📦 发布版本
- Fleming-R1-7B —— 基于 Qwen2.5-7B 训练
🤗
UbiquantAI/Fleming-R1-7B - Fleming-R1-32B —— 基于 Qwen3-32B 训练
🤗
UbiquantAI/Fleming-R1-32B
📊 性能表现
主要基准测试结果
推理能力对比
在衡量医学推理能力的MedXpertQA评测中,Fleming-R1超过了同量级甚至更大量级的模型,和一些闭源模型效果齐平。
🔧 快速开始
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "UbiquantAI/Fleming-R1-7B" # UbiquantAI/Fleming-R1-32B
# load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
# prepare the model input
prompt = "What should I do if I suddenly develop a fever?"
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
# conduct text completion
generated_ids = model.generate(
**model_inputs,
max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
# parsing thinking content
output = tokenizer.decode(output_ids, skip_special_tokens=True).strip("\n")
thinking_content = output.split("<think>")[-1].split("</think>")[0]
content = output.split("</think>")[-1]
print("####thinking content:\n", thinking_content)
print("\n")
print("####answer:\n", content)
⚠️安全声明
本项目仅供研究与非临床参考;不得用于实际诊断或治疗决策。 输出的推理轨迹仅为模型生成的可审计中间过程,不等于医学意见。 在医疗场景中务必由专业人员进行复核与把关,并遵守所在地区的法律法规与隐私合规要求。
📚 引用
@misc{flemingr1,
title={Fleming-R1: Toward Expert-Level Medical Reasoning via Reinforcement Learning},
author={Chi Liu and Derek Li and Yan Shu and Robin Chen and Derek Duan and Teng Fang and Bryan Dai},
year={2025},
eprint={2509.15279},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2509.15279},
}