- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
面向工业生物信息资源的抓取系统设计与实现
王甲卫 天津工业生物技术研究所信息中心
一、 引言
工业生物技术是为工业目标而实施的生物技术,该技术以微生物或酶为催化
剂进行物质转化,来大规模生产化学品、医药、能源、材料等人类所需品,是解
决人类目前面临的资源、 能源及环境危机的有效手段。在过去的 5 年中, 973 计
划及时部署和支持了若干工业生物技术领域的项目, 如工业生物催化和生物转
化、生物炼制和细胞工厂、工业生物技术的过程科学问题等。这些项目的设计和
布局, 对于应对 2003 年后能源价格的飙升以及资源紧缺等重大问题提供了科学
技术支撑, 起到了很好的作用, 部分技术成果进入产业阶段, 保持了我国工业生
物技术与国外大体同步的局面。工业生物信息资源的保障对于促进科研成果转化、
推动研究实力水平发展、占据国际工业生物技术有利地位将具有积极的意义。
二、信息资源分析
围绕工业生物技术以及生物技术的国内著名门户网站包括:工业生物信息网、
工业生物技术信息网、生物谷、生物通、丁香园、科学网等,前几个主要是针对
生物方面的科研进展及新闻动态进行搜集与展示,而丁香园侧重于生物医药,科
学网主要侧重于工科类科学信息。国外在生物技术方面著名的网站主要包括:
nature 、science、cell 、oxfordjournals 、pnas 、plosone 等。这些网站不但涵盖了大
部分的学术期刊,而且对于最新的科学研究都会有部分评述。及时了解这些动态
与信息,对于掌握先进科研动态、提高科研水平、扩大知识视野将是非常重要的。
但同时显露出所面临的问题,各个网站结构不同,类别不同,除非对网站非常熟
悉,否则仅仅是将所列举的几个网站浏览一遍,都会占据相当长的时间。在这种
情况下,信息聚合、页面信息抓取将成为解决问题的有利工具。
三、系统功能分析
工业生物信息资源抓取系统主要是针对工业生物领域相关网站的信息进行
获取,而后进行系统分类,存入本地数据库,再以不同栏目、不同类别的方式按
时间先后顺序将内容展示给读者的一套系统,通过此系统,读者可迅速找到感兴
趣的栏目或类别,浏览 1 中所列网站上的相关信息,避免了在不同网站之间相互
跳转的麻烦,节省了各个网站打开时等待时间。系统的主要功能如图 1 所示:
58
图 1 工业生物信息资源抓取系统功能
四、 设计方法与实现
(一)所需工具
在系统实现过程中,以 C#作为系统抓取的开发工具,以 mysql 作为本地化
数据的存储,以 php 实现本地化数据的查询与统计分析,整个系统所 用到的
软件工具表 1 所示。
功能名称 软件名称
系统抓取 Visual Studio 2008 C#
数据库 Mysql
数据库设计 Powerdesign
数据显示界面 Php(appserver)
显示界面美化 Div+css
表 1 系统设计过程中用到的软件工具
(二)系统工作流程
系统开始开始运行后,由内置的定时器(timer )按设定的时间段启动抓取程
序,程序自动对给定的资源列表进行扫描。扫描过程中,循环判断页面内的内容
是否已经抓取完成。如果已经抓取,则不再进行抓取,避免了重复抓取和数据重
叠;如未抓取,则进行抓取,然后按照相应类别存入本地数据库。系统运行后的
工作流程如图 2 所示:
59
文档评论(0)