- 1、本文档共61页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
摘要
结肠癌是一种非常常见的危害人类身心健康的恶性肿瘤,在我国发病率及
致死率更是居高不下,导致了许多人的死亡.结肠癌的潜在生物标志物的挖掘对
于推进结肠癌的确诊及治疗有十分重要的意义.我们利用GEO数据库下载
GSE74602;GSE9348;GSE10950;GSE25070这四个数据集,利用统计学习方法,
对其基因进行筛选,并进行有关潜在生物标志物的认定.
我们进行数据清洗然后进行去批次效应,将其整合成一个数据集.利用
limma包进行差异基因表达分析,分析在癌症组和正常组之间的差异表达的基因,
一共得到129个上调基因,和196个下调基因共325个差异表达基因.之后利用
GO和KEGG数据库,进行功能富集分析,观察这325个差异表达的基因富集到
哪些功能条目.基于STRING数据库进行PPI蛋白互作网络分析,得到MYC,
TOP2A,FOXM1,AURKB等是连接度较高的基因.
利用三种不同算法,对325个基因进行更进一步的筛选.LASSO算法的得到
FOXQ1,ABI3BP,CDCA5,CELSR3等9个基因,Boruta算法得到151个核心基
因,XGBoost算法得到11个核心基因,我们对这几种方法得到的基因取交集,得
到FOXQ1,PPAP2A等6个交集基因.
对得到的6个核心基因,进行ROC分析,发现6个基因的AUC均在0.9以
上,认定其为潜在的生物标志物.基因PPAP2A生存分析结果显著,这证明其可
能与患者的预后情况密切相关.6个基因的免疫浸润结果表明Bcellsnaive在正
常结肠组织中的浸润比例较高,在结肠癌肿瘤组织中浸润比例较低,Mastcells
activitied在正常结肠组织中的浸润比例较低,在结肠癌肿瘤组织中浸润比例较高.
利用CellMiner数据库找到与基因相关的药物,再对能搜索到蛋白质分子结构的
基因与相关药物进行分子对接,FOXQ1基因,S100A11基因和SCARA5与
Ribavirin,Masoprocol,Mitomycin的结合能均低于-5kcal/mol,可能对癌症的治疗
发挥作用.
关键词:
结肠癌;生物标志物;特征选择;生存分析;LASSO;Boruta;XGBoost
ABSTRACT
Coloncancerisaverycommonmalignanttumorthatendangershumanphysical
andmentalhealth.ItsincidenceandmortalityarehighinChina,leadingtothedeathof
manypeople.Theminingofpotentialbiomarkersofcoloncancerisofgreat
significanceforpromotingthediagnosisandtreatmentofcoloncancer.GSE74602was
downloadedfromtheGEOdatabase.GSE9348;GSE10950;Statisticallearning
methodswereusedtoscreengenesfromthefourdatasetsofGSE25070andidentify
potentialbiomarkers.
Wecleanedthedataandthenperformedadebatchingeffecttoconsolidateitinto
onedataset.Utilizingthelimmapackage,wecond
文档评论(0)