面对繁杂的生信数据,你是否曾困惑于众多类型的图表解析?
火山图、热图、散点图、箱线图、瀑布图……这些图该怎么看?风险模型预后评估图、GO-KEGG富集分析图、GSEA富集分析图……这些图又代表着怎样的研究结果?
好消息来了!小云新栏目【小云解读生信图】已上线,并且收到了不错的阅读反馈。该栏目已经讲解了火山图、热图、相关性散点图、GSEA图、箱线图等,得到了粉丝朋友们的热烈关注。
为了满足大家的需求,小云的新栏目将持续更新。这一次,我们要讲讲另一个重要的图表——ROC曲线图。
ROC曲线图是评价预后/诊断模型预测性能的重要工具。它常常与K-M生存曲线图一同出现,几乎所有构建模型的生信文章都会用到ROC曲线分析。
一、什么是ROC曲线图?
ROC曲线全名为Receiver Operating Characteristic Curve,即受试者工作特征曲线。由于它可以反映模型在选取相同或不同阈值时的敏感性和准确性的走向,因此也被称为感受性曲线(sensitivity curve)。
二、ROC曲线图的应用
1. 评估模型或关键基因对两类测试者(如患者和正常人)的分类及诊断效果。通过绘制ROC曲线并计算AUC(曲线下面积),我们可以知道哪个指标的分类/诊断效果更好。
(小云特别提示:这是ROC曲线在生信分析中的主要作用,也是最常用的功能之一。)
2. 寻找最佳的指标阈值(cutoff值),以使分类效果最佳。
三、如何解读ROC曲线图?
1) 首先介绍几个关键概念:
- 真阳性率(TPR),也称为灵敏度(Sensitivity),表示实际为阳性的样本被正确判断为阳性的比例。
- 假阳性概率(FPR),表示实际为阴性的样本被错误判断为阳性的比例。
- 特异度(Specificity),也称为真阴性率(TNR),表示实际为阴性的样本被正确判断为阴性的比例。
- 约登指数(Youden Index),反映分类模型总能力的指标。其值越大,表示分类模型性能越好,也对应着最佳的诊断临界值(cutoff值)。
- AUC(Area Under Curve),即ROC曲线下的面积。AUC值越大,预测准确率越高。
2) 关于坐标轴:横坐标为假阳性率(FPR),纵坐标为真阳性率(TPR)。ROC曲线图反映敏感性与特异性之间的关系。
3) AUC的判断预测性能:理论上来说,AUC值越接近于1,说明预测模型的准确率越高。
四、示例结果
下图展示了预测模型的1年、3年、5年的ROC曲线,AUC值均大于/等于0.8,表示预测准确性良好,其中第3年和第5年的准确率最高。
对于生信小白来说,解读ROC曲线图是否感到豁然开朗了呢?如有任何疑问,欢迎给小云留言。
小云有话说