1论文实例 2016年发布在 J Clin Oncol (SCI影响因子26分)的科研对大肠癌病人术前运用放射组学办法,对淋巴结转移状况创立预测模型与模型验证。Development and Validation of a Radiomics Nomogram for Preoperative Prediction of Lymph Node Metastasis in Colorectal Cancer.
做了预测模型校准曲线 (Calibration curve),两个图分别是建模队列和验证队列。图的横坐标是预测概率:用预测模型对事件出现的可能性(Probability)进行预测,0到1暗示发生事件可能性是0到100%。纵坐标是实质概率:病人实质的事件出现率。红色的线是拟合线,暗示预测值对应的实质值。
结果诠释:
倘若预测值=实质值,则红线与参考线(蓝线)完全重合;
倘若预测值>实质值,即高估了危害,则红线在蓝线下面;
倘若预测值<实质值,即低估了危害,则红线在蓝线上面; 倘若能把点估计的波动范围展示出来证据级别高有些。2论文实例2008年发布在 J Clin Oncol 的预测结肠癌复发的科研。Individualized prediction of colon cancer recurrence using a nomogram.
图3是校准曲线,AB两图分别预测60个月和120个月结果事件。一样横纵坐标分别是预测概率和实质概率。与论文实例1区别的是:
1、坐标范围不是0-1,而是按照实质状况的取值范围绘制的。这般做是符合做图规范的。
2、展示了点估计的波动范围。证据级别高有些。
3、本科研把区别时间出现的结果画在两个图上,下面这篇论文则呈此刻一张图上。 3论文实例2011年发布在 Lancet Oncol(SCI影响因子36分)的科研,对慢性乙型肝炎发展为肝细胞癌创立预测模型进行危害评定和验证。
Calibration chart展示了三条线:Y出现时间分别是3、5和10年(红、蓝和绿线)。结果诠释:
1、当危害较低时(少于10%),三条线均在参考线的上面,即低估了危害;
2、当危害较高时(大于10%),蓝线和绿线与参考线很接近(基本重合),即未高估或低估危害;
3、横纵坐标轴的刻度间距不是等距分布的,而是等比例(10倍)分布的。这是按照本科研数据分析状况选取的,符合做图规范。
4、本例无表示每一个点的波动范围。目的是表示三条线的分布,倘若要表示波动范围,最好掰开做三个图(如论文实例2) 4论文实例有的科研点会密有些,这儿有10条线。波动范围大,与样本量小相关。
Nomogram for Preoperative Estimation of Microvascular Invasion Risk in Hepatitis B Virus–Related Hepatocellular Carcinoma Within the Milan Criteria. JAMA Surgery, 2015. SCI IF=8.4
五花八门的Calibration curve
该怎样选取呢?
JAMA发布指南出大招
2017年在JAMA上发布的临床预测模型的区分和校准指南。Discrimination and Calibration of Clinical Prediction Models: Users Guides to the Medical Literature. JAMA, 2017.
指南中给的Calibration curve就更美丽有些,用曲线形式展示。
图中横坐标是预测模型得出的风险评分,纵坐标是实质值死亡率。黑色的点和线是实质观察到的1年死亡率和95%CI,黄色的曲线是模型预测的1年的死亡率。
指南中写到用肉眼看(visual)是最佳的评估校准曲线的方式(is the best way to evaluate calibration),亦说到有统计学办法能够计算预测值和观测值的统计学差异(eg, the Hosmer-Lemeshow test),然而指南中并不举荐依靠p值评估校准曲线,并且用了三段来阐述不意见按照统计学检验计算p值的原由,这里就不仔细讲述了。 5论文实例这指的是南中举荐的参考文献的做法,用曲线拟合的方式呈现校准曲线,并用肉眼结合指标的临床道理判断临床实用价值。
可见当实质死亡率大于30%时,预测模型会低估死亡危害。临床价值在于:某些病人预测模型得出死亡危害是30%,很可能选取药品治疗并推迟心脏移植治疗时间,然而其实质死亡危害可能接近50%。因此呢,运用该模型会引起有些病人不适当地推迟移植。原文如下:
Predicting survival in heart failure: validation of the MAGGIC heart failure risk score in 51 043 patients from the Swedish Heart Failure Registry. European Journal of Heart Failure, 2014. SCI IF=10.6 6论文实例2017年 Eur Urol杂志(SCI影响因子17.5分)发布临床科研基于国家癌症数据库,分析局部治疗对转移性前列腺癌病人总存活率的影响。亦采用了曲线拟合的形式做校准曲线,并且做了分层分析。The Impact of Local Treatment on Overall Survival in Patients with Metastatic Prostate Cancer on Diagnosis: A National Cancer Data Base Analysis.
核心结果诠释:横坐标是预测的死亡概率,纵坐标是实质存活概率。
当预测的死亡概率=30%时,红线在蓝线上面,显示局部治疗(LT)比非局部治疗NLT实质存活率高;
当预测的死亡概率≥72%时,红线在蓝线下面,显示LT比NLT实质存活率低;
因此呢,得出基线状况好的病人,LT疗效好的结论。临床用途:用基线指标给病人做预测,倘若预测死亡概率<72%,则举荐用局部治疗方法。 操作实例
例如:用多个临床(如年龄、性别和BMI)指标创立结果指标Y的预测模型绘制校准曲线。
首要看数据结构:
需要有结果变量(是不是出现事件),这个事件能够是死亡(是/否),亦能够是发病(是/否)。一般无出现事件编码为0,出现事件编码为1。
把原始数据整理到一张表中,每一个科研对象一行,全数字编码,缺失的数据能够空着。 易侕软件操作
第1步:数据操作的计算残差与预测值模块
,给出结果变量、自变量(单个或多个指标,能够是连续或归类变量),点击保留。得出后缀是PRED的新变量,范围是0-1,显示预测的事件危害。
第二步:数据操作菜单下的“平滑曲线拟合”模块,给出应变量(结果指标)、暴露变量(上一步得出的预测值)、曲线拟合分层因子(group),点击查看结果。
结果出来了,横坐标预测的事件出现率,纵坐标是实质事件出现率。红线是曲线拟合线,蓝线是95%CI。点的疏密程度表率样本量。图中绿色的线是参考线,即预测值=实质值的状况。可见红线在绿线的上面,显示预测值危害高于实质危害。
对!操作就这么简单!
重视:易侕软件输出的是曲线拟合+95%CI的图(png照片和pdf格式),以及用于绘制曲线的原始数据(Excel格式)。参考线(如上图绿线)是后期做图添加的,其实很简单,两点连起来便是一条线,本例中把0.2和0.6对应的横纵线一画,找到两个交点后连线就ok啦。
往期精彩回顾危险原因科研需要调节那些变量?建模与验证 | 预测模型国际规范(TRIPOD)的技术瓶颈破解办法多个结果指标存在竞争关系怎么办?竞争危害模型(Fine & Gray)
点击官网,免费下载安装易侕软件
http://www.empowerstats.com/empowerU/# 扫一扫,惊喜持续!近期培训班
第十六期临床研究设计、数据分析与实战培训
贵阳贵州省第二人民医院会议室
2018/08/6-10 (8月5日报到)
临床研究工作者发布SCI的新途径 利用既往病例资料,将临床经验转化为证据
报名方式见本链接:
起始报名啦 | 第十六期临床研究设计、数据分析与实战培训
|