基于可信度和语义相似度的网页信息甄选研究-图书情报专业论文.docx

下载文档 降价啦

0
0
约7.78万字
约 80页
2019-03-28 发布于上海
举报
版权申诉
保障服务

基于可信度和语义相似度的网页信息甄选研究-图书情报专业论文.docx

1、本文档共80页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

硕士专业学位论文硕士专业学位论文基于可信度和语义相似度的网页信息甄选研究摘要随着互联网技术的飞速发展，互联网已经成为一个巨大的、全球性的信息服务中心，成为人们获取信息知识的主要来源。但是，由于互联网的开放性、无界性等特点，使得互联网上的信息质量参差不齐，鱼目混杂，充斥着很多虚假、有误、无用等信息。在面对互联网上浩如烟海、良莠不齐的信息时，人们通常使用主流搜索引擎来查找自身所需信息。然而，主流搜索引擎作为商业工具，其搜索结果也不能使用户觉得特别满意：一方面，它不能保证信息质量可靠的网页都排在前面；另一方面，它可能包含大量重复和转载的网页。这极大地影响了用户获取信息的效率，同时也严重浪费了用户筛选信息的时间和精力。因此，本文提出基于可信度和语义相似度的网页信息甄选方法，旨在为用户减轻从互联网获取高质量和高可信度信息的负担，提高网页信息甄选的效率。本文首先在对国内外现有相关研究进行全面调查和系统分析的基础上，归纳总结相关的理论研究成果和技术方法；其次，重点构建本研究所使用的网页信息可信度评估指标体系，并将其划分为来源权威性、内容重要性和网页相关性三个层次，每个层次还设定多个具体的评价指标，通过专家打分法和层次分析法确定每个指标的权重，并给出可信度的计算公式；再次，本文在对网页内容和结构进行详细分析的基础上，重点研究分析基于DOM树结构的网页正文提取方法和实现过程，并将LDA主题模型应用到网页的语义相似度计算当中，提出基于LDA主题模型的网页语义相似度计算方法，详细研究其实现过程；最后，本文设计并实现基于可信度和语义相似度的网页信息甄选系统，详细分析系统各个模块的功能，并通过相关实验和结果分析，验证本文所提方法的有效性与实用性。关键词：网页信息可信度，信息甄选，语义相似度，DOM，LDA主题模型万方数据 Abstract Abstract 硕士专业学位论文 Abstract With the rapid development of Internet technology，the Internet has become a huge， global information service center，and it’S the primary source to access information and knowledge of people．However，due to the openness and unbounded of Internet，The quality of information on the Intemet iS uneven，filled with a lot of false，incorrect and useless information．In the face of the vast，bad information on the Internet，people usually use the major search engines to find their required information．However，the mainstream search engine as a business tool，its search results do not make users feel particularly satisfied：on the one hand，it cannot guarantee reliable quality web top surface；on the other hand，it may contain a large number of duplicate and reproduced pages．This greatly affects the efficiency of users access to information，but also is a waste of time and effort to filter the information of users．Therefore，this paper proposes a web information selection method based on credibility and semantic similarity，which aims to reduce the burden of people to access high quality and high reliability information from the Internet，and improve the efficiency of web page inform