文献解读图像识别预测病理分期研究思路.pdfVIP

下载本文档

3
0
约5.59千字
约 10页
2024-03-19 发布于宁夏
举报
版权申诉

文献解读图像识别预测病理分期研究思路.pdf

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

文献解读图像识别预测病理分期研究思路

基于CT图像特征分析的机器学习算法预测非小细胞肺癌病理分期

研究共纳入145例病理证实的IA-IV期NSCLC患者。患者队列由

三个数据集组成，包括NSCLC（n=87），LUAD（n=24）和LUSC

（n=34）。NSCLC样本平均分为训练集和测试集，而LUAD和

LUSC数据集用于外部验证。NSCLC，LUAD和LUSC队列患者的临床

病理特征如表1所示。纳入标准为新诊断或未经治疗的NSCLC和病理

证实的IA-IV期肺腺癌和鳞状细胞癌，以及治疗前的CT图像。排除标

准是接受手术或化学放射治疗并且包含不正确的分期信息的患者。

TRIPOD核对表附加为附加文件1：表S1。

表1训练和验证集中的患者和肿瘤特征

1.通过3D切片器软件进行病变识别和感兴趣区域分割

所有患者图像均以原始DICOM格式加载和处理。使用3D-Slicer

软件加载CT图像文件和RTSTRUCT文件用于映射病变的子区域。应

用段编辑器模块将主表示从平面轮廓更改为二进制标签贴图。3D图像

文件和二进制掩模标记文件由3D切片器保存为NRRD格式文件，用

于下一个特征提取步骤。

2.使用Pyradiomics从CT图像中提取特征

使用python包pyradiomics来执行特征提取任务。一些定量特

征如下：一阶特征，形状特征，灰度共生矩阵（GLCM）特征。除了

形状特征之外，还可以在原始图像或派生图像上测量其他特征。

3.数据预处理

首先应该确认NSCLC队列的原始类别分布是否平衡。如果不是，

则通过SMOTE算法进行过采样，以解决机器学习中数据集不平衡，并

通过生成新的数据集来实现类分布的均衡，然后将新生成的数据集分

成训练集和测试集。

4.预测建模和特征选择

考虑到可能影响预测模型分类精度的一些冗余和不相关的特征，

通过随机森林算法计算CT图像特征的重要性值，然后根据特征重要性

选择最佳特征（平均减少基尼杂质0.005）用于建模。在这里，使用

袋外（OOB）误差评估随机森林的分类准确度，该误差是随机森林推

广误差的无偏估计。使用python模块scikit-learn使用默认参数执行

上述所有建模过程。鉴于每个阶段的样本量有限，对早期（阶段I/II）

和后期（阶段III/IV）的二值化阶段进行了所有上述分析。

5.预测模型的分类准确性

为了评估训练和测试集中预测模型的性能，绘制接收器操作特征

（ROC）曲线以显示测试集和外部验证集中的分类性能。ROC曲线是

反映连续变量的假阳性率和真阳性率的综合指数。曲线下面积（AUC）

是模型性能的评估量度。

使用分类器的混淆矩阵作为其质量的度量，用准确度分数，正确

分类的样本数量与所有样本数量的比率，来检查预测结果和实际结果

之间是否存在一致性。最后，使用原始特征计算一个新模型，其精度

分数可以根据所选择的最优特征来计算。

6.使用精确回忆曲线评估预测模型

除了使用ROC曲线评估预测模型的准确性之外，还使用

Precision-Recall度量来估计分类器的输出质量。在使用精度和召回度

量等性能度量的不平衡数据集评估二元分类器时，精确调用曲线更具

信息性。两者的高分表明分类器返回准确的结果（高精度），以及返

回大部分所有正面结果（高召回率）。而且，f1得分越高，分类模型

越稳定。考虑到单一指标-精度，召回和f1得分的限制，对每个分类

采用平均精确分数和精确召回来评估总体容量。平均精度（AP）用于

使用在每个阈值处实现的精确度的加权

您可能关注的文档

文档评论（0）

洞察 + 关注: 官方认证

文档贡献者

博士生

咨询Ta 进入空间

认证主体宁夏三科果农牧科技有限公司

IP属地宁夏

统一社会信用代码/组织机构代码: 91640500MABW4P8P13

1亿VIP精品文档

更多 >

文献解读图像识别预测病理分期研究思路.pdfVIP