石油百科报告余航 ppt课件.pptVIP

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
石油百科报告余航 ppt课件

介绍人:余 航 2015年9月8日 石油百科设计与实现 报告内容 (一)功能描述 (二)模块划分 (三)模块流程分析 (四)文件系统设计 (五)数据库设计 功能描述 石油百科搜索根据后台设定的石油百科种子网站,从这些百科类站点中抓取石油领域的相关词条网页。 石油百科搜索根据后台设定的石油百科种子网站提取路径,从抓取的词条网页中根据XPATH路径提取词条的相关内容,包括词条名、摘要、词条内容、最近更新时间等。 石油百科搜索索引器对词条的摘要、内容最近更新时间等进行了索引。以加快检索的速度。 检索界面包括2种检索方式:搜索词条和进入词条,满足用户多方面的要求,另外提供智能的词条其他解释来源以及相关词条搜索的快速入口。 当用户检索关键词为空或查询不到结果时默认进入热门词条界面,石油百科搜索提供检索频率最高的100个热门词条引导用户的检索过程。 功能模块划分 主要模块 模块流程分析 抓取模块 读取本地baikesiteurl.txt文件,将其保存的种子网站url插入到baikesite表中。 从baikesite表中选取出category为0的种子url,读取readfile目录下的石油领域专业词库,把专业词库的每个词填入数据库specialwords中并置category为0,从数据库specialwords表中找到category为0的专业词条填入各类百科类站点中,根据返回的json字符串,把专业词库中没有的返回词条填入数据库的specialwords表中,并置category为1。 把specialwords表中的每个专业词汇对baikesite表中category为0的种子站点进行查询,找出那些词条在这些种子站点中有相应的网页,找到每个词条对应的网页并标注,结果存放在baikeword表中。 对baikeword表中的所有数据根据baikesite表中category为0的种子站点指定的规则生成相应的url字符串,并插入到baikeurl表中。 模块流程分析 抓取模块 从baikesite表中选取出category为1的种子url,对于从网络上读取的字符流,获得在浏览器客户端展示的内容,并保存到本地,文件名为url_id.html,保存在以first_crawler_time命名的文件夹下。 根据数据库表中提取百科词条列表的字段值,进行词条网页的提取,并把百科的url插入到baikeurl表中。根据它的子分支字段值,提取网页下的专题网站链接,插入到baikesite表中。 从baikesite表中选取出所有没有抓取过的(url_update=0)网页,依次进行抓取,解码保存 更新url对应的数据库内容,把网页的大小和状态信息填入数据库表中。 对baikeurl的所有数据,根据相应的url字符串,保存每个词条的文本和url_id.htm的网页文件。 模块流程分析 处理模块 根据百科搜索器抓取到的网页内容,提供对百科种子网页的链接提取和对词条网页的词条名、摘要、内容最近更新时间的提取。 在提取百科词条的的摘要时,采用多路径的提取,即对普通词条的摘要提取以及对一些科技词条目科技名词解释内容的提取。 根据路径提取百科词条的最近更新时间,最近更新时间不仅用于在检索界面作为返回给用户的数据外,也做为在更新操作中判断词条最近是否更新过的依据。 提取到百科词条的title、摘要、内容和最近更新时间这几部分内容后,把他们写入到本地的url_id.txt文件中,文件存放在以first_crawler_time命名的文件夹下,同时,还要把title和内容按照title****modify_time ***abstract ***content的格式填入到百科的文本文件中,文件名是baike_url表中的url_id.txt。 模块流程分析 索引模块 首先分析器将分析得到的需要建立索引的内容返回给主程序,主程序生成索引器的实例对象,在索引器实例初始化的时候,需要获取索引保存的路径。另外还需要将cache下的索引全部删除,将索引目录下的索引复制到cache目录下。 为百科词条建立索引。需要建立索引的域包括urlid、url(网页url的字符串)、title(标题)、abstract(摘要)、first_create_time(最早抓取时间)、content(词条内容)、docsize(网页文本大小)、site_name(所属种子站点)、modify_time(最近更新时间)。其中标题设置10倍权重,摘要设置2倍权重,词条的正文内容设置1倍权重。 索引建立完毕之后,需要关闭IndexWriter对象实例,关闭索引的时候会对索引进行优化。索引的建立优化都是在cache目录下进行的,先将主索引目录下的索引删除,再将cache目录下的索引复制到主索引目

文档评论(0)

135****6041 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档