- 1、本文档共16页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
石油百科报告余航 ppt课件
介绍人:余 航 2015年9月8日 石油百科设计与实现 报告内容 (一)功能描述 (二)模块划分 (三)模块流程分析 (四)文件系统设计 (五)数据库设计 功能描述 石油百科搜索根据后台设定的石油百科种子网站,从这些百科类站点中抓取石油领域的相关词条网页。 石油百科搜索根据后台设定的石油百科种子网站提取路径,从抓取的词条网页中根据XPATH路径提取词条的相关内容,包括词条名、摘要、词条内容、最近更新时间等。 石油百科搜索索引器对词条的摘要、内容最近更新时间等进行了索引。以加快检索的速度。 检索界面包括2种检索方式:搜索词条和进入词条,满足用户多方面的要求,另外提供智能的词条其他解释来源以及相关词条搜索的快速入口。 当用户检索关键词为空或查询不到结果时默认进入热门词条界面,石油百科搜索提供检索频率最高的100个热门词条引导用户的检索过程。 功能模块划分 主要模块 模块流程分析 抓取模块 读取本地baikesiteurl.txt文件,将其保存的种子网站url插入到baikesite表中。 从baikesite表中选取出category为0的种子url,读取readfile目录下的石油领域专业词库,把专业词库的每个词填入数据库specialwords中并置category为0,从数据库specialwords表中找到category为0的专业词条填入各类百科类站点中,根据返回的json字符串,把专业词库中没有的返回词条填入数据库的specialwords表中,并置category为1。 把specialwords表中的每个专业词汇对baikesite表中category为0的种子站点进行查询,找出那些词条在这些种子站点中有相应的网页,找到每个词条对应的网页并标注,结果存放在baikeword表中。 对baikeword表中的所有数据根据baikesite表中category为0的种子站点指定的规则生成相应的url字符串,并插入到baikeurl表中。 模块流程分析 抓取模块 从baikesite表中选取出category为1的种子url,对于从网络上读取的字符流,获得在浏览器客户端展示的内容,并保存到本地,文件名为url_id.html,保存在以first_crawler_time命名的文件夹下。 根据数据库表中提取百科词条列表的字段值,进行词条网页的提取,并把百科的url插入到baikeurl表中。根据它的子分支字段值,提取网页下的专题网站链接,插入到baikesite表中。 从baikesite表中选取出所有没有抓取过的(url_update=0)网页,依次进行抓取,解码保存 更新url对应的数据库内容,把网页的大小和状态信息填入数据库表中。 对baikeurl的所有数据,根据相应的url字符串,保存每个词条的文本和url_id.htm的网页文件。 模块流程分析 处理模块 根据百科搜索器抓取到的网页内容,提供对百科种子网页的链接提取和对词条网页的词条名、摘要、内容最近更新时间的提取。 在提取百科词条的的摘要时,采用多路径的提取,即对普通词条的摘要提取以及对一些科技词条目科技名词解释内容的提取。 根据路径提取百科词条的最近更新时间,最近更新时间不仅用于在检索界面作为返回给用户的数据外,也做为在更新操作中判断词条最近是否更新过的依据。 提取到百科词条的title、摘要、内容和最近更新时间这几部分内容后,把他们写入到本地的url_id.txt文件中,文件存放在以first_crawler_time命名的文件夹下,同时,还要把title和内容按照title****modify_time ***abstract ***content的格式填入到百科的文本文件中,文件名是baike_url表中的url_id.txt。 模块流程分析 索引模块 首先分析器将分析得到的需要建立索引的内容返回给主程序,主程序生成索引器的实例对象,在索引器实例初始化的时候,需要获取索引保存的路径。另外还需要将cache下的索引全部删除,将索引目录下的索引复制到cache目录下。 为百科词条建立索引。需要建立索引的域包括urlid、url(网页url的字符串)、title(标题)、abstract(摘要)、first_create_time(最早抓取时间)、content(词条内容)、docsize(网页文本大小)、site_name(所属种子站点)、modify_time(最近更新时间)。其中标题设置10倍权重,摘要设置2倍权重,词条的正文内容设置1倍权重。 索引建立完毕之后,需要关闭IndexWriter对象实例,关闭索引的时候会对索引进行优化。索引的建立优化都是在cache目录下进行的,先将主索引目录下的索引删除,再将cache目录下的索引复制到主索引目
您可能关注的文档
- 水电工地试验室运行管理与检测技术 ppt课件.ppt
- 气源处理元件分享 ppt课件.pptx
- 水电站电气一次设备高压试验理论 ppt课件.ppt
- 汇流箱乔帅 ppt课件.ppt
- 水岸设计与水景小品 ppt课件.ppt
- 汽车底盘构造与维修项目三 ppt课件.pptx
- 汽车发动机绪论 ppt课件.ppt
- 汽车材料第五章 汽车用非金属材料 ppt课件.ppt
- 汽车电气设备构造与维修项目三 ppt课件.pptx
- 案例1:獐子岛第1季2014扇贝海底劫 ppt课件.ppt
- 小学科学:ESP8266智能插座电路原理与动手实践研究教学研究课题报告.docx
- 《金融开放浪潮下我国多层次监管体系构建与创新研究》教学研究课题报告.docx
- 区域教育质量监测中人工智能应用的数据质量分析与优化策略教学研究课题报告.docx
- 《金融科技监管中的数据治理与合规性要求》教学研究课题报告.docx
- 《3D打印技术在航空航天领域中的多材料制造与复合材料应用》教学研究课题报告.docx
- 《绿色金融发展中的政府职能与市场机制研究》教学研究课题报告.docx
- 《植物工厂多层立体栽培光环境调控技术对植物生长发育节律的调控机制探讨》教学研究课题报告.docx
- 销售团队年度业绩总结.docx
- 银行风险管理与金融危机防范.docx
- 银行网络攻击预警与快速响应机制.docx
最近下载
- 2025年内蒙古时事政治考试试卷带解析必考题.docx VIP
- 人教版数学三年级下册单元试卷【1-8合集,含答案】.pdf VIP
- 2025年内蒙古时事政治考试试卷带解析参考答案.docx VIP
- (答案)奥赛经典-奥林匹克数学中的几何问题---习题与讲解(第1-2章).pdf VIP
- 奥赛经典奥林匹克数学中的几何问题.pdf VIP
- 奥的斯电梯ACD4 原理图纸注释.pdf VIP
- 2025国家能源集团新疆哈密能源化工有限公司社会招聘(51人)笔试参考题库附答案解析.docx VIP
- 建设项目环境影响报告表.PDF VIP
- 呼吸科利用PDCA循环提高住院患者吸入剂使用正确率品管圈.pptx VIP
- 2024-2030年全球气动导弹弹射发射器(PMEL)行业现状、重点企业分析及项目可行性研究报告.docx
文档评论(0)