- 1、本文档共80页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
硕士专业学位论文
硕士专业学位论文 基于可信度和语义相似度的网页信息甄选研究
摘 要
随着互联网技术的飞速发展,互联网已经成为一个巨大的、全球性的信息服务中心, 成为人们获取信息知识的主要来源。但是,由于互联网的开放性、无界性等特点,使得 互联网上的信息质量参差不齐,鱼目混杂,充斥着很多虚假、有误、无用等信息。在面 对互联网上浩如烟海、良莠不齐的信息时,人们通常使用主流搜索引擎来查找自身所需 信息。然而,主流搜索引擎作为商业工具,其搜索结果也不能使用户觉得特别满意:一 方面,它不能保证信息质量可靠的网页都排在前面;另一方面,它可能包含大量重复和 转载的网页。这极大地影响了用户获取信息的效率,同时也严重浪费了用户筛选信息的 时间和精力。因此,本文提出基于可信度和语义相似度的网页信息甄选方法,旨在为用 户减轻从互联网获取高质量和高可信度信息的负担,提高网页信息甄选的效率。
本文首先在对国内外现有相关研究进行全面调查和系统分析的基础上,归纳总结相 关的理论研究成果和技术方法;其次,重点构建本研究所使用的网页信息可信度评估指 标体系,并将其划分为来源权威性、内容重要性和网页相关性三个层次,每个层次还设 定多个具体的评价指标,通过专家打分法和层次分析法确定每个指标的权重,并给出可 信度的计算公式;再次,本文在对网页内容和结构进行详细分析的基础上,重点研究分 析基于DOM树结构的网页正文提取方法和实现过程,并将LDA主题模型应用到网页的语 义相似度计算当中,提出基于LDA主题模型的网页语义相似度计算方法,详细研究其实 现过程;最后,本文设计并实现基于可信度和语义相似度的网页信息甄选系统,详细分 析系统各个模块的功能,并通过相关实验和结果分析,验证本文所提方法的有效性与实 用性。
关键词:网页信息可信度,信息甄选,语义相似度,DOM,LDA主题模型
万方数据
Abstract
Abstract 硕士专业学位论文
Abstract
With the rapid development of Internet technology,the Internet has become a huge, global information service center,and it’S the primary source to access information and
knowledge of people.However,due to the openness and unbounded of Internet,The quality of information on the Intemet iS uneven,filled with a lot of false,incorrect and useless information.In the face of the vast,bad information on the Internet,people usually use the major search engines to find their required information.However,the mainstream search engine as a business tool,its search results do not make users feel particularly satisfied:on
the one hand,it cannot guarantee reliable quality web top surface;on the other hand,it may
contain a large number of duplicate and reproduced pages.This greatly affects the efficiency
of users access to information,but also is a waste of time and effort to filter the information
of users.Therefore,this paper proposes a web information selection method based on credibility and semantic similarity,which aims to reduce the burden of people to access high quality and high reliability information from the Internet,and improve the efficiency of web
page inform
您可能关注的文档
- 基于微粒群算法的夹具装配序列规划方法研究-机械设计及理论专业论文.docx
- 基于数学形态学的医学图像目标检测-信号与信息处理专业论文.docx
- 基于图像硬度和边缘纹理特征量的肝纤维化诊断研究-信息处理与通信网络系统专业论文.docx
- 基于卵巢RNA组学鉴定影响猪产仔数性状的候选基因及microRNA-动物遗传育种与繁殖专业论文.docx
- 基于历史沿革研究的苏州网师园空间分析-建筑设计及理论专业论文.docx
- 基于无线传感器网络的滑坡预警系统设计-仪器仪表工程专业论文.docx
- 基于区域特征的电动自行车流量检测算法的研究与应用-信息处理与通信网络系统专业论文.docx
- 基于微流控技术的吸附透析膜的实验研究-生物医学工程专业论文.docx
- 基于视频分析的人群仿真方法研究-计算机技术专业论文.docx
- 基于三维网状TiO2骨架层的钙钛矿太阳电池研究-可再生能源与清洁能源专业论文.docx
文档评论(0)