- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大连理工大学硕士学位论文摘
大连理工大学硕士学位论文
摘 要
近年来,随着Web信息多元化的增长,传统的信息采集系统(Scalable Web Crawler) 已无法保证对信息的及时更新,并且由于其采集信息的主题范围过于广泛,较少考虑采 集的信息是否与查询主题相关,满足不了人们对个性化信息检索服务日益增长的需求。 主题信息采集系统(Focused Web Crawler)采集信息的内容只限于特定主题或专门领域, 在搜索过程中无须对整个Web进行遍历,只需选择与主题页面相关的页面进行访问, 基本回避了传统信息采集系统信息指数膨胀的危机,成为近年的研究热点。
本文以辽河油田科技部信息管理系统为研究背景。分析了网络蜘蛛的工作原理,按 照评价链接价值所采用方法的不同将现有的搜索策略进行了分类,分析、比较了它们的 特点和优缺点,并给出了一种基于语义链接分析的信息采集策略。结合该策略,设计了 一个面向主题搜索的信息采集模型,并对模型的组织结构及各模块的功能进行了详细阐 述。
词义消歧是主题语义相关度计算的基础,本文结合两种基于“知网”的词义消歧策 略:类别歧义消歧策略、基于语义相关度的消歧策略;给出一种基于“知网”的消歧算 法,该算法利用词语义原中所含的四种关系,计算词语之间的相关度和词语与其上下文 之间的相关度,进而达到词义消歧的目的。
在URL的主题相关性判别过程中,以“知网”为基础引入了词汇的语义计算,从 语义和概念层对文本进行主题相关性分析,将基于内容评价的搜索策略和基于Web链
接结构的搜索策略相结合,给出了一种改进算法SPageRank(Semantic PageRank),通过 对扩展元数据进行主题相关性判定来选择、预测与主题相关的URL。而对于网页的主题 相关性判定,则使用目前较为常用的向量空间模型进行计算。实验结果表明,基于 SPageRank的信息采集系统具有较高的采集效率及精度。
关键词:主题信息采集;知网;搜索策略;扩展元数据
大连理工大学硕士学位论文Research
大连理工大学硕士学位论文
Research and Application of Web Crawling Algorithm Based on Semantic Analysis
Abst ract
In recent year,with web information continuing to explode in all directions,traditional sealable web crawler carl’t keep up、vitll the information update in time,meanwhile,for its widely crawling range,less regard whether the gathered information is relevant to the topic or
not.can’t“6ll the more and more rigorous and prolific search requirements from different users.Focused web crawler,which collects ireformation in specialized fields,does not need to index the web completely.Just access the web pages that are relevant to the topic,avoid the
crisis caused by the inflation of infonnation.become a hotspot in recent year’s researches. This paper takes information management system of Liaohe petroleum technique
department as research background.Categorizes web spiders search strategies based on the way they evaluate and predict the links obtained from web.The principle and character of each class of searching strategy is described and the advantages and disadvantages are discussed,present a comprehensive evaluation search strateg
您可能关注的文档
- 基于振动的压电材料的能量采集特性分析-机械工程专业论文.docx
- 基于虚拟仪器的远程控制实验平台研究-测试计量技术及仪器专业论文.docx
- 基于图像处理技术的脱绒棉种内部品质检测机理研究-农业电气化与自动化专业论文.docx
- 基于虚拟仪器的发电机转子匝间短路诊断系统的研制-电机与电器专业论文.docx
- 基于循环经济的双灯集团造纸废水处理研究-工业工程专业论文.docx
- 基于小波变换的CDMA系统性能分析与研究-电路与系统专业论文.docx
- 基于虚拟仪器技术的列车舒适度检测与研究-机械制造及其自动化专业论文.docx
- 基于小波分析的数字图像水印技术研究-计算机软件与理论专业论文.docx
- 基于小波变换的图像压缩编码技术-信号与信息处理专业论文.docx
- 基于虚拟仪器(Ⅵ)的电力电子电容试验研究-计算机应用技术专业论文.docx
- 基于运筹学方法的若干物流管理问题研究-软件工程专业论文.docx
- 基于形式概念分析和本体的移动搜索引擎研究-基础数学专业论文.docx
- 基于语言经济原则的影视字幕翻译研究-英语笔译专业论文.docx
- 基于虚拟仪器的液压元件综合性能测试系统研究-机械设计及理论专业论文.docx
- 基于双层雾化器设计的气体流场和雾化过程的模拟研究-材料加工工程专业论文.docx
- 基于小波变换和应变能的网格结构损伤识别与定位研究-结构工程专业论文.docx
- 基于永磁激励的钢丝绳缺陷检测技术研究-测试计量技术及仪器专业论文.docx
- 基于知识与规则的地籍数据质量检查系统的研究-地图学与地理信息系统专业论文.docx
- 基于虚拟环境下运动参数测试系统研究与开发-机械制造及其自动化专业论文.docx
- 基于双代数的进程语义研究-计算机软件与理论专业论文.docx
最近下载
- 2023-2024学年辽宁省大连市沙河口区八年级(上)期末数学试卷+答案解析.pdf VIP
- 统编版(2024)七年级下册道德与法治11.1《法不可违》教案 .pdf VIP
- 小学生古诗词大赛试题(附答案).docx VIP
- GPIR复合外模板现浇混凝土保温系统建筑构造.pdf VIP
- 中小学校长选拔笔试试题及参考答案.docx VIP
- 全国计算机等级考试教程二级WPS Office高级应用与设计:电子表格的创建与编辑PPT教学课件.pptx VIP
- 黔西南州企业融资难融资贵主要情况反馈.doc VIP
- 垂径定理练习.3 垂径定理练习.doc VIP
- (已压缩)关于建筑设计防火的原则规定(1960)(OCR).pdf VIP
- 工业与民用建筑抗震设计规范TJ11-78.pdf VIP
文档评论(0)