高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

DeepSeek-V3.1和ChatGPT-5在结直肠癌肝转移多学科团队诊疗中的应用比较

张扬子 许婷 高兆亚 司振铎 徐蔚然

张扬子, 许婷, 高兆亚, 司振铎, 徐蔚然. DeepSeek-V3.1和ChatGPT-5在结直肠癌肝转移多学科团队诊疗中的应用比较[J]. 电子与信息学报. doi: 10.11999/JEIT250849
引用本文: 张扬子, 许婷, 高兆亚, 司振铎, 徐蔚然. DeepSeek-V3.1和ChatGPT-5在结直肠癌肝转移多学科团队诊疗中的应用比较[J]. 电子与信息学报. doi: 10.11999/JEIT250849

DeepSeek-V3.1和ChatGPT-5在结直肠癌肝转移多学科团队诊疗中的应用比较

doi: 10.11999/JEIT250849 cstr: 32379.14.JEIT250849
基金项目: 教育部产学合作协同育人项目(2506193449)、北京航空航天大学虚拟现实技术与系统全国重点实验室开放课题(VRLAB2025C15)及首都医科大学附属北京天坛医院院内科研基金(管理专项,TYGL202402)
详细信息
    作者简介:

    张扬子:女,医学博士,副主任医师,研究方向为消化系统肿瘤的放射治疗与综合治疗

    许婷:女,医学博士,主治医师,研究方向为消化系统肿瘤的精准药物治疗与综合治疗

    高兆亚:男,医学博士,副主任医师,研究方向为胃肠肿瘤的外科治疗与综合治疗

    司振铎:男,医学博士,主治医师,研究方向为肝胆胰肿瘤的外科治疗与综合治疗

    徐蔚然:男,医学博士,副主任医师,研究方向为恶性肿瘤的精准药物治疗与智慧医疗

    通讯作者:

    徐蔚然 tengchongdajiujia@163.com

  • 中图分类号: TP391.41

Funds: the Ministry of Education Industry–University Cooperative Education Project (2506193449); the National Key Laboratory of Virtual Reality Technology and Systems at Beihang University (Open Project No. VRLAB2025C15); the Beijing Tiantan Hospital Institutional Research Fund (Management Project, TYGL202402)
  • 摘要: 目的 本研究旨在比较DeepSeek-V3.1与ChatGPT-5在结直肠癌肝转移(CRLM)多学科团队(MDT)决策中的应用表现,评估其与MDT专家意见的一致性,为大语言模型(LLMs)的临床实践提供循证依据与优化方向。 方法 研究团队基于真实世界数据与最新指南,设计了6例涵盖不同肿瘤负荷、基因突变谱和体能状态的虚拟CRLM病例,通过结构化的提示策略,在DeepSeek-V3.1与ChatGPT-5模型中分别生成MDT治疗建议。由4名MDT专家(消化肿瘤内科、胃肠外科、肝胆外科、放疗科各1名)采用7维度5级李克特量表对模型输出进行独立评审。并通过统计学分析对两款模型在各个病例、各项维度和各个学科的表现分别进行比较。 结果 两款大语言模型在所有病例中的综合得分均≥ 4.0分(满分5分),表明其在复杂的MDT决策场景下具备可接受的临床效能。在跨维度分析中,两者在清晰度、个体化程度、抗幻觉能力和伦理安全四项上得分较高,而在准确性、全面性和前沿性方面仍有一定提升空间。DeepSeek-V3.1在整体表现(4.27 ± 0.77 vs 4.08 ± 0.86)、前沿性(3.90 ± 0.65 vs 3.42 ± 0.72)与伦理安全(4.87 ± 0.34 vs 4.58 ± 0.65)方面显著优于ChatGPT-5(P < 0.05);在放疗领域亦明显领先(4.55 ± 0.67 vs 3.38 ± 0.91,P<0.001)。ChatGPT-5则在胃肠外科领域表现优于DeepSeek-V3.1(4.48 ± 0.67 vs 4.17 ± 0.85,P = 0.02)。 结论 DeepSeek-V3.1与ChatGPT-5均表现出为CRLM-MDT决策提供可靠建议的良好能力。其中,DeepSeek-V3.1在前沿知识整合、伦理安全性及放射肿瘤学领域展现出显著优势,而ChatGPT-5则在胃肠外科方面表现更优,二者形成优势互补。本研究证实了大型语言模型作为“MDT协作者”的可行性,为缩小地域间诊疗水平差距、提升临床决策效率提供了一项便捷可靠的技术方案。然而,模型幻觉与证据等级不足仍是其当前面临的主要局限。未来,通过真实世界临床验证、证据体系追溯及人类反馈强化学习等机制,有望进一步推动LLMs成为CRLM-MDT决策中更为强大的辅助工具。
  • 图  1  XXXXXXXXXXXX

    表  1  病例列表

    病例资料
    1
    60岁男性,ECOG 1分。1年来间断便血,肠镜示距肛缘4-7 cm溃疡隆起型占位,病理为中分化腺癌。盆腔核磁提示直肠下段占位,累及左侧肛提肌、前列腺,直肠系膜内、直肠上动脉区淋巴结转移,数量≥ 7枚,MRF(+),EMVI 3分。腹部核磁提示肝脏S7、S8可见两枚转移灶,最大2×1.5 cm。胸CT未见转移。基因检测提示KRAS、NRAS、BRAF均为野生型,MSS,Her2无扩增。CEA 12 ng/ml。血常规提示血红蛋白 90 g/L,肝肾功能未见异常。既往有高血压病史。
    2
    56岁男性,ECOG 2分,1年来排便困难,2天来腹胀伴停止排气排便,肠镜示距肛缘10 cm肿物,环3/4周,肠腔狭窄,取病理活检为低分化腺癌伴印戒细胞癌。基因检测提示KRAS G12c突变,NRAS、BRAF野生型,MSS,Her2无扩增。腹盆CT:直肠上段至乙状结肠可见占位性病变,长约10 cm,病变以上小肠及结肠扩张伴气液平形成;病变旁、肠系膜下动脉根部可见多发肿大淋巴结,数量≥ 7枚;肝脏可见多发转移灶,数量> 10个,较大6×5 cm,侵犯门脉左干。CEA 205 ng/ml。血常规、肝肾功能未见明显异常。
    3
    43岁男性,ECOG 1分,腹痛2个月,肠镜示升结肠占位,约3 ×4 cm,病理为粘液腺癌。基因检测提示MSI-H,KRAS、NRASBRAF均为野生型,Her2无扩增。腹盆CT提示升结肠占位,肠周可见肿大淋巴结,数量约4枚,较大短径1 cm;肝S6可见一枚转移瘤,1.5×1.2 cm。胸CT未见转移。CEA 20 ng/ml。血常规、肝肾功能未见异常。父亲50岁因患直肠癌去世。
    4 65岁男性,ECOG 2分,3月来大便不畅,肠镜示距肛缘4-10 cm溃疡隆起型占位,病理为中分化腺癌。盆腔核磁:直肠中下段占位,肿瘤累及直肠周围脂肪,直肠系膜区、直肠上动脉走形区、左侧髂内区可见多发枚肿大淋巴结,数量约7枚,MRF(+),EMVI 4分。腹盆CT:左侧髂总血管旁可见转移淋巴结,肝内多发低强化占位。肝脏核磁:肝左叶、右叶见多发转移灶,数量约4枚,较大病灶2.3×1.8 cm。基因检测提示BRAF V600E突变,KRAS G12D突变,NRAS野生型,MSS,Her2无扩增。血常规、肝肾功能无异常。
    5
    56岁女性,ECOG 3分,2个月来肛门坠胀伴便血,2周来皮肤巩膜黄染。血常规无异常,谷丙转氨酶 107 IU/L, 谷草转氨酶120 IU/L,总胆红素 115 umol/L, 直接胆红素 86 umol/L, CEA 106 ng/ml。肠镜示距肛门3-6 cm占位,病理为低分化腺癌,Her2(3+)。盆腔核磁示直肠下段占位,病变累及肛门内、外括约肌,直肠周围系膜内可见肿大淋巴结,数量约4枚,MRF(+),EMVI 1分。腹部CT:肝内弥漫多发转移灶,数量> 10枚,较大5×4.5 cm,肝内胆管扩张。胸CT提示双肺转移。基因检测提示Her2扩增,NRASBRAF野生型,MSS。
    6 35岁男性,ECOG 1分,大便习惯改变8个月,肠镜示距肛缘8-12 cm溃疡型肿物,病理为中分化腺癌。盆腔核磁提示直肠中上段占位,直肠周围系膜内可见条索影,直肠系膜区、直肠上动脉走形区可见肿大淋巴结,数量3枚,MRF(-),EMVI(-)。腹部核磁提示肝S8段可见一枚转移灶,1.7×1.4 cm。胸CT未见转移征象。CEA 6 ng/ml。基因检测提示KRASNRASBRAF均为野生型,MSS,Her2无扩增。血常规、肝肾功能正常。
    下载: 导出CSV

    表  2  李克特量表的7个维度问题和评分标准

    No. 维度 问题 评分标准
    1 准确性 模型提出的治疗决策是否符合当前的临床指南或最佳实践? 1 = 完全不符合,5 = 完全符合
    2 全面性 模型的最终建议是否合理整合了肿瘤内科、胃肠外科、肝胆外科、
    放疗科的意见,且看起来符合您所在领域的最佳实践?
    1 = 完全不符合,5 = 完全符合
    3 前沿性 模型的决策是否充分结合了您所在领域的最新的临床研究成果,
    体现了循证医学的理念?
    1 = 完全未体现,5 = 完全体现
    4 清晰度 模型关于您专业的治疗建议在整体上是否清晰易懂,并且能够通过有效的
    解释向患者或其他临床医生进行传达?
    1 = 非常不清晰,5 = 非常清晰
    5 个体化程度 模型关于您专业的治疗决策是否考虑了患者的具体情况
    (如年龄、分子特征、体能状态、合并症、患者意愿等)?
    1 = 完全未考虑,5 = 完全考虑
    6 抗幻觉能力 在模型提出的关于您专业的治疗方案中,是否存在可能导致患者或医生产生
    幻觉的建议?例如,是否提出了不切实际或不符合当前医学认知的治疗方案?
    1 = 存在严重幻觉风险,
    5 = 完全不存在幻觉风险
    7 伦理安全 模型提供的关于您专业的治疗建议是否会违反伦理标准,
    有可能提供对患者有害的信息或建议?
    1 = 存在严重伦理风险,
    5 = 完全符合伦理标准
    下载: 导出CSV

    表  3  两个大语言模型在6个病例中的评分比较

    病例DeepSeek-V3.1(N = 28)ChatGPT-5(N = 28)P值
    14.46 ± 0.644.00 ± 0.940.04*
    23.36 ± 0.874.43 ± 0.50< 0.01*
    34.25 ± 0.803.79 ± 1.100.12
    44.39 ± 0.693.75 ± 0.93< 0.01*
    54.36 ± 0.494.36 ± 0.681.00
    64.50 ± 0.794.18 ± 0.720.01*
    6个病例的平均值4.27 ± 0.774.08 ± 0.860.03*
    * P < 0.05
    下载: 导出CSV

    表  4  两个大语言模型在7个维度中的评分比较

    维度DeepSeek-V3.1 (N = 24)ChatGPT-5 (N = 24)P值
    准确性3.92 ± 0.833.83 ± 0.870.78
    全面性3.75 ± 0.743.88 ± 0.850.62
    前沿性3.90 ± 0.653.24 ± 0.720.03*
    清晰度4.50 ± 0.664.21 ± 0.720.13
    个体化程度4.12 ± 0.804.12 ± 0.741.00
    抗幻觉能力4.79 ± 0.414.54 ± 0.930.27
    伦理安全4.87 ± 0.344.58 ± 0.650.03*
    * P < 0.05
    下载: 导出CSV

    表  5  两个大语言模型在4个不同学科中的评分比较

    学科 DeepSeek-V3.1
    (N = 42)
    ChatGPT-5
    (N = 42)
    P值
    消化肿瘤内科 4.24 ± 0.79 4.21 ± 0.81 0.89
    胃肠外科 4.17 ± 0.85 4.48 ± 0.67 0.02*
    肝胆外科 4.12 ± 0.71 4.26 ± 0.63 0.14
    放疗科 4.55 ± 0.67 3.38 ± 0.91 < 0.01*
    * P < 0.05
    下载: 导出CSV
  • [1] SUNG H, FERLAY J, SIEGEL R L, et al. Global cancer statistics 2020: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries[J]. CA: A Cancer Journal for Clinicians, 2021, 71(3): 209–249. doi: 10.3322/caac.21660.
    [2] MARTIN J, PETRILLO A, SMYTH E C, et al. Colorectal liver metastases: Current management and future perspectives[J]. World Journal of Clinical Oncology, 2020, 11(10): 761–808. doi: 10.5306/wjco.v11.i10.761.
    [3] REBOUX N, JOOSTE V, GOUNGOUNGA J, et al. Incidence and survival in synchronous and metachronous liver metastases from colorectal cancer[J]. JAMA Network Open, 2022, 5(10): e2236666. doi: 10.1001/jamanetworkopen.2022.36666.
    [4] VALDERRAMA-TREVIÑO A I, BARRERA-MERA B, CEBALLOS-VILLALVA J C, et al. Hepatic metastasis from colorectal cancer[J]. Euroasian Journal of Hepato-Gastroenterology, 2017, 7(2): 166–175. doi: 10.5005/jp-journals-10018-1241.
    [5] ZEINEDDINE F A, ZEINEDDINE M A, YOUSEF A, et al. Survival improvement for patients with metastatic colorectal cancer over twenty years[J]. npj Precision Oncology, 2023, 7(1): 16. doi: 10.1038/s41698-023-00353-4.
    [6] LAN Y T, JIANG J K, CHANG S C, et al. Improved outcomes of colorectal cancer patients with liver metastases in the era of the multidisciplinary teams[J]. International Journal of Colorectal Disease, 2016, 31(2): 403–411. doi: 10.1007/s00384-015-2459-4.
    [7] TOPOL E J. High-performance medicine: The convergence of human and artificial intelligence[J]. Nature Medicine, 2019, 25(1): 44–56. doi: 10.1038/s41591-018-0300-7.
    [8] THIRUNAVUKARASU A J, TING D S J, ELANGOVAN K, et al. Large language models in medicine[J]. Nature Medicine, 2023, 29(8): 1930–1940. doi: 10.1038/s41591-023-02448-8.
    [9] SINGHAL K, AZIZI S, TU Tao, et al. Large language models encode clinical knowledge[J]. Nature, 2023, 620(7972): 172–180. doi: 10.1038/s41586-023-06291-2.
    [10] MESKÓ B and GÖRÖG M. A short guide for medical professionals in the era of artificial intelligence[J]. npj Digital Medicine, 2020, 3: 126. doi: 10.1038/s41746-020-00333-z.
    [11] PARK Y E and CHAE H. The fidelity of artificial intelligence to multidisciplinary tumor board recommendations for patients with gastric cancer: A retrospective study[J]. Journal of Gastrointestinal Cancer, 2024, 55(1): 365–372. doi: 10.1007/s12029-023-00967-8.
    [12] HORESH N, EMILE S H, GUPTA S, et al. Comparing the management recommendations of large language model and colorectal cancer multidisciplinary team: A pilot study[J]. Diseases of the Colon & Rectum, 2025, 68(1): 41–47. doi: 10.1097/DCR.0000000000003504.
    [13] CHOO J M, RYU H S, KIM J S, et al. Conversational artificial intelligence (chatGPT™) in the management of complex colorectal cancer patients: Early experience[J]. ANZ Journal of Surgery, 2024, 94(3): 356–361. doi: 10.1111/ans.18749.
    [14] UMIHANIC S, OSMANOVIC H, SELAK N, et al. Evaluating the concordance between ChatGPT and multidisciplinary teams in breast cancer treatment planning: A study from Bosnia and Herzegovina[J]. Journal of Clinical Medicine, 2025, 14(18): 6460. doi: 10.3390/jcm14186460.
    [15] AMMO T, GUILLAUME V G J, HOFMANN U K, et al. Evaluating ChatGPT-4o as a decision support tool in multidisciplinary sarcoma tumor boards: Heterogeneous performance across various specialties[J]. Frontiers in Oncology, 2025, 14: 1526288. doi: 10.3389/fonc.2024.1526288.
    [16] LEE J T, LI V C S, WU J J, et al. Evaluation of performance of generative large language models for stroke care[J]. npj Digital Medicine, 2025, 8(1): 481. doi: 10.1038/s41746-025-01830-9.
    [17] ELEZ E, YOSHINO T, SHEN Lin, et al. Encorafenib, cetuximab, and mFOLFOX6 in BRAF-mutated colorectal cancer[J]. New England Journal of Medicine, 2025, 392(24): 2425–2437. doi: 10.1056/NEJMoa2501912.
    [18] OMAR M, SORIN V, COLLINS J D, et al. Multi-model assurance analysis showing large language models are highly vulnerable to adversarial hallucination attacks during clinical decision support[J]. Communications Medicine, 2025, 5(1): 330. doi: 10.1038/s43856-025-01021-3.
    [19] AHN S. A guide to evade hallucinations and maintain reliability when using large language models for medical research: A narrative review[J]. Annals of Pediatric Endocrinology & Metabolism, 2025, 30(3): 115–118. doi: 10.6065/apem.2448278.139.
    [20] LIU Jiaxi. ChatGPT: Perspectives from human-computer interaction and psychology[J]. Frontiers in Artificial Intelligence, 2024, 7: 1418869. doi: 10.3389/frai.2024.1418869.
    [21] RAJARAM A, LI H, HOLODINSKY J K, et al. Opening the black box: Challenges and opportunities regarding interpretability of artificial intelligence in emergency medicine[J]. Canadian Journal of Emergency Medicine, 2025, 27(2): 83–86. doi: 10.1007/s43678-024-00827-9.
  • 加载中
图(1) / 表(5)
计量
  • 文章访问数:  45
  • HTML全文浏览量:  21
  • PDF下载量:  5
  • 被引次数: 0
出版历程
  • 收稿日期:  2025-08-31
  • 修回日期:  2025-10-29
  • 录用日期:  2025-11-12
  • 网络出版日期:  2025-11-18

目录

    /

    返回文章
    返回