文献解读图像识别预测病理分期研究思路.pdfVIP

文献解读图像识别预测病理分期研究思路.pdf

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

文献解读图像识别预测病理分期研究思路

基于CT图像特征分析的机器学习算法预测非小细胞肺癌病理分期

研究共纳入145例病理证实的IA-IV期NSCLC患者。患者队列由

三个数据集组成,包括NSCLC(n=87),LUAD(n=24)和LUSC

(n=34)。NSCLC样本平均分为训练集和测试集,而LUAD和

LUSC数据集用于外部验证。NSCLC,LUAD和LUSC队列患者的临床

病理特征如表1所示。纳入标准为新诊断或未经治疗的NSCLC和病理

证实的IA-IV期肺腺癌和鳞状细胞癌,以及治疗前的CT图像。排除标

准是接受手术或化学放射治疗并且包含不正确的分期信息的患者。

TRIPOD核对表附加为附加文件1:表S1。

表1训练和验证集中的患者和肿瘤特征

1.通过3D切片器软件进行病变识别和感兴趣区域分割

所有患者图像均以原始DICOM格式加载和处理。使用3D-Slicer

软件加载CT图像文件和RTSTRUCT文件用于映射病变的子区域。应

用段编辑器模块将主表示从平面轮廓更改为二进制标签贴图。3D图像

文件和二进制掩模标记文件由3D切片器保存为NRRD格式文件,用

于下一个特征提取步骤。

2.使用Pyradiomics从CT图像中提取特征

使用python包pyradiomics来执行特征提取任务。一些定量特

征如下:一阶特征,形状特征,灰度共生矩阵(GLCM)特征。除了

形状特征之外,还可以在原始图像或派生图像上测量其他特征。

3.数据预处理

首先应该确认NSCLC队列的原始类别分布是否平衡。如果不是,

则通过SMOTE算法进行过采样,以解决机器学习中数据集不平衡,并

通过生成新的数据集来实现类分布的均衡,然后将新生成的数据集分

成训练集和测试集。

4.预测建模和特征选择

考虑到可能影响预测模型分类精度的一些冗余和不相关的特征,

通过随机森林算法计算CT图像特征的重要性值,然后根据特征重要性

选择最佳特征(平均减少基尼杂质0.005)用于建模。在这里,使用

袋外(OOB)误差评估随机森林的分类准确度,该误差是随机森林推

广误差的无偏估计。使用python模块scikit-learn使用默认参数执行

上述所有建模过程。鉴于每个阶段的样本量有限,对早期(阶段I/II)

和后期(阶段III/IV)的二值化阶段进行了所有上述分析。

5.预测模型的分类准确性

为了评估训练和测试集中预测模型的性能,绘制接收器操作特征

(ROC)曲线以显示测试集和外部验证集中的分类性能。ROC曲线是

反映连续变量的假阳性率和真阳性率的综合指数。曲线下面积(AUC)

是模型性能的评估量度。

使用分类器的混淆矩阵作为其质量的度量,用准确度分数,正确

分类的样本数量与所有样本数量的比率,来检查预测结果和实际结果

之间是否存在一致性。最后,使用原始特征计算一个新模型,其精度

分数可以根据所选择的最优特征来计算。

6.使用精确回忆曲线评估预测模型

除了使用ROC曲线评估预测模型的准确性之外,还使用

Precision-Recall度量来估计分类器的输出质量。在使用精度和召回度

量等性能度量的不平衡数据集评估二元分类器时,精确调用曲线更具

信息性。两者的高分表明分类器返回准确的结果(高精度),以及返

回大部分所有正面结果(高召回率)。而且,f1得分越高,分类模型

越稳定。考虑到单一指标-精度,召回和f1得分的限制,对每个分类

采用平均精确分数和精确召回来评估总体容量。平均精度(AP)用于

使用在每个阈值处实现的精确度的加权

您可能关注的文档

文档评论(0)

洞察 + 关注
官方认证
文档贡献者

博士生

认证主体宁夏三科果农牧科技有限公司
IP属地宁夏
统一社会信用代码/组织机构代码
91640500MABW4P8P13

1亿VIP精品文档

相关文档