外链论坛

 找回密码
 立即注册
搜索
查看: 1|回复: 0

预测模型校准曲线 | Calibration curve (上篇)

[复制链接]

2563

主题

144

回帖

9914万

积分

论坛元老

Rank: 8Rank: 8

积分
99140929
发表于 10 小时前 | 显示全部楼层 |阅读模式
1论文实例

2016年发布在 J Clin Oncol (SCI影响因子26分)的科研对大肠癌病人术前运用放射组学办法,对淋巴结转移状况创立预测模型与模型验证。Development and Validation of a Radiomics Nomogram for Preoperative Prediction of Lymph Node Metastasis in Colorectal Cancer.

做了预测模型校准曲线 (Calibration curve),两个图分别是建模队列和验证队列。图的横坐标是预测概率:用预测模型对事件出现的可能性(Probability)进行预测,0到1暗示发生事件可能性是0到100%。纵坐标是实质概率:病人实质的事件出现率。红色的线是拟合线,暗示预测值对应的实质值。

结果诠释

倘若预测值=实质值,则红线与参考线(蓝线)完全重合;

倘若预测值>实质值,即高估了危害,则红线在蓝线下面;

倘若预测值<实质值,即低估了危害,则红线在蓝线上面;

倘若能把点估计的波动范围展示出来证据级别高有些。2论文实例

2008年发布在 J Clin Oncol 的预测结肠癌复发的科研Individualized prediction of colon cancer recurrence using a nomogram.

图3是校准曲线,AB两图分别预测60个月和120个月结果事件。一样横纵坐标分别是预测概率和实质概率。与论文实例1区别的是:

1、坐标范围不是0-1,而是按照实质状况的取值范围绘制的。这般做是符合做图规范的。

2、展示了点估计的波动范围。证据级别高有些

3、本科研区别时间出现结果画在两个图上,下面这篇论文则呈此刻一张图上。

3论文实例

2011年发布在 Lancet Oncol(SCI影响因子36分)的科研,对慢性乙型肝炎发展为肝细胞癌创立预测模型进行危害评定和验证。

Calibration chart展示了三条线:Y出现时间分别是3、5和10年(红、蓝和绿线)。结果诠释

1、危害较低时少于10%),三条线均在参考线的上面,即危害

2、危害较高时(大于10%),蓝线和绿线与参考线很接近(基本重合),即未高估或低估危害

3、横纵坐标轴的刻度间距不是等距分布的,而是等比例(10倍)分布的。这是按照科研数据分析状况选取的,符合做图规范。

4、本例表示每一个点的波动范围。目的是表示三条线的分布,倘若表示波动范围,最好掰开做三个图(如论文实例2)

4论文实例

有的科研点会密有些这儿有10条线。波动范围大,与样本量小相关

Nomogram for Preoperative Estimation of Microvascular Invasion Risk in Hepatitis B Virus–Related Hepatocellular Carcinoma Within the Milan Criteria. JAMA Surgery, 2015.  SCI IF=8.4

五花八门的Calibration curve

怎样选取呢?

JAMA发布指南出大招

2017年在JAMA上发布的临床预测模型的区分和校准指南。Discrimination and Calibration of Clinical Prediction Models: Users Guides to the Medical Literature. JAMA, 2017.

指南中给的Calibration curve就更美丽有些用曲线形式展示

图中横坐标是预测模型得出的风险评分,纵坐标是实质值死亡率。黑色的点和线是实质观察到的1年死亡率和95%CI,黄色的曲线是模型预测的1年的死亡率。

指南中写到用肉眼看(visual)是最佳的评估校准曲线的方式(is the best way to evaluate calibration)说到有统计学办法能够计算预测值和观测值的统计学差异(eg, the Hosmer-Lemeshow test),然而指南中并不举荐依靠p值评估校准曲线,并且用了三段来阐述不意见按照统计学检验计算p值的原由这里就不仔细讲述了。

5论文实例

指的是南中举荐的参考文献的做法,用曲线拟合的方式呈现校准曲线,并用肉眼结合指标的临床道理判断临床实用价值。

可见当实质死亡率大于30%时,预测模型会低估死亡危害。临床价值在于:某些病人预测模型得出死亡危害是30%,很可能选取药品治疗并推迟心脏移植治疗时间,然而其实质死亡危害可能接近50%。因此呢运用该模型会引起有些病人不适当地推迟移植。原文如下:

Predicting survival in heart failure: validation of the MAGGIC heart failure risk score in 51 043 patients from the Swedish Heart Failure Registry. European Journal of Heart Failure, 2014. SCI IF=10.6

6论文实例

2017年 Eur Urol杂志(SCI影响因子17.5分)发布临床科研基于国家癌症数据库,分析局部治疗对转移性前列腺癌病人存活率的影响。采用了曲线拟合的形式做校准曲线,并且做了分层分析。The Impact of Local Treatment on Overall Survival in Patients with Metastatic Prostate Cancer on Diagnosis: A National Cancer Data Base Analysis.

核心结果诠释:横坐标是预测的死亡概率,纵坐标是实质存活概率。

当预测的死亡概率=30%时,红线在蓝线上面,显示局部治疗(LT)比非局部治疗NLT实质存活率高;

当预测的死亡概率≥72%时,红线在蓝线下面,显示LT比NLT实质存活率低;

因此呢,得出基线状况好的病人,LT疗效好的结论。临床用途:用基线指标给病人做预测,倘若预测死亡概率<72%,则举荐用局部治疗方法

操作实例

例如:用多个临床(如年龄、性别和BMI)指标创立结果指标Y的预测模型绘制校准曲线。

首要看数据结构:

需要有结果变量(是不是出现事件),这个事件能够是死亡(是/否),能够是发病(是/否)。一般出现事件编码为0,出现事件编码为1。

把原始数据整理到一张表中,每一个科研对象一行,全数字编码,缺失的数据能够空着。

易侕软件操作

第1步:数据操作的计算残差与预测值模块

,给出结果变量、自变量(单个或多个指标,能够是连续或归类变量),点击保留。得出后缀是PRED的新变量,范围是0-1,显示预测的事件危害

第二步:数据操作菜单下的“平滑曲线拟合”模块,给出应变量(结果指标)、暴露变量(上一步得出的预测值)、曲线拟合分层因子(group),点击查看结果。

结果出来了,横坐标预测的事件出现率,纵坐标是实质事件出现率。红线是曲线拟合线,蓝线是95%CI。点的疏密程度表率样本量。图中绿色的线是参考线,即预测值=实质值的状况。可见红线在绿线的上面,显示预测值危害高于实质危害

对!操作就这么简单!

重视:易侕软件输出的是曲线拟合+95%CI的图(png照片和pdf格式),以及用于绘制曲线的原始数据(Excel格式)。参考线(如上图绿线)是后期做图添加的,其实很简单,两点连起来便是一条线,本例中把0.2和0.6对应的横纵线一画,找到两个交点后连线就ok啦。

往期精彩回顾危险原因科研需要调节那些变量?建模与验证 | 预测模型国际规范(TRIPOD)的技术瓶颈破解办法多个结果指标存在竞争关系怎么办?竞争危害模型(Fine & Gray)

点击官网,免费下载安装易侕软件

http://www.empowerstats.com/empowerU/#

扫一扫,惊喜持续

近期培训班

第十六期临床研究设计、数据分析与实战培训

贵阳贵州省第二人民医院会议室

2018/08/6-10 (8月5日报到)

临床研究工作者发布SCI的新途径

利用既往病例资料,将临床经验转化为证据

报名方式见本链接:

起始报名啦 | 第十六期临床研究设计、数据分析与实战培训

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|外链论坛 ( 非经营性网站 )|网站地图

GMT+8, 2024-10-3 17:26 , Processed in 0.071542 second(s), 19 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.