源代码利用python脚本实现批量抓取药物靶点信息-peaker.pdfVIP

源代码利用python脚本实现批量抓取药物靶点信息-peaker.pdf

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

#源代码#利用Python实现批量抓取药物靶点信息

Peaker

在药物相关研究领域,我们经常需要利用到药物的靶点信息,以

便于我们研究药物的治疗作用。这一信息在很多研究方向上都有重要

意义,例如通过靶点相似性可以推测药物的相似性,从而实现药物重

定位或药物新作用发现。另一方面,通过分析药物靶点之间的相关性,

可以发现新的治疗靶标或药物新靶点。除了治疗领域,在药物副反应

方面,药物靶点信息也起到重要作用,因为药物副反应一方面是脱靶

效应,另一方面是作用于和靶点结构相似的未知蛋白。因此结合靶点

信息,可能会解释部分的药物毒副反应发生机制,识别副反应相关蛋

白。

说了这么多药物靶点的重要性,那么我们通常如何获得药物的靶

点信息呢?很多数据库都收录了药物和蛋白的互作关系,例如

promiscuous,STITCH,supertarget等,但是这些数据库都是基于文献

或预测获得的药物相关蛋白,而最的药物靶点信息还是要依赖于

一级数据库——drugbank。

但是这里又要提到一个问题,就是对于很多药物需要批量检索时

该怎么办?没错,drugbank非常友善的为用户提供了数据,但是

药物靶点信息的数据总大小为几G,全部下来非常耗时,占内存,

同时如此大的数据我们并不能直接使用,通常需要对大数据进行文本

处理,如拆分或提取有效信息等。这一过程实在是非常麻烦。所以今

天为大家提供一种最简单实用的方法——网络爬虫。也就是利用网页

抓取的原理从drugbank数据库批量抓取药物的靶点信息,实现全过程

的自动化一站式服务。

首先我们进入drugbank主页

我们以aspirin为例,在搜索框输入药物名aspirin,点击search进入如

下界面

如图,上方地址栏内为URL地址,下面红框内为查询到的aspirin药物,

乙酰水杨酸。点击药物名进入下面详细信息

如图所示,地址栏为我们最终希望得到的targetURL地址,也就

是说获得这个地址,就可以直接跳转到药物的详细信息,包括靶点信

息的页面。下面我们可以看到红框内的target靶点信息。

那么最关键的问题就是如何获得URL地址呢,URL中有一个

DB00945,也就是找到这个药物ID就可以跳转过来,我们通过上一级

源代码可以看到DB00945的位置,接下来就是通过正则表达式抓取这

个DB00945的信息了。

对于targetURL,也就是目标地址,我们可以找到药物对应的靶点信息,

如图所示,这里程序默认的是抓取UniprotID,因为考虑到后期ID转

换的问题,UniprotID可以更方便的转换为GENEID,或symbol等。

这里我们以第一个target为例,通过源代码找到他的位置,如图所

示。其他的target也可以通过类似的段落格式,基于正则表达式抓取。

接下来我们尝试用Python

文档评论(0)

wx5620 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档