面向网络文本信息可信度评估方法研究.docVIP

下载本文档

15
0
约5.84千字
约 13页
2018-06-23 发布于福建
举报
版权申诉

面向网络文本信息可信度评估方法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

面向网络文本信息可信度评估方法研究

面向网络文本信息可信度评估方法研究　　摘要：随着网络信息的膨胀性增长，不可信的信息在网络中日益增多，阻碍误导用户对可信信息的获取。研究网络文本的可信度评估方法，对句子级命题提取多维网络分布特征，通过线性组合计算可信度值，从而判断命题的可信度。在可信度评估过程中，文中方法通过词语结构特征提取可信信息的候选信息，并在候选信息的可信度计算中加入对信息源的可信度分析判断，提高了信息可信度的评估准确度。　　关键词：信息可信度；替换项；候选答案；可信度计算　　中图分类号：TP391 [KG*2]文献标识码：A[KG*2][HT5”H]文章编号：2095-2163（2013）05-0031-05 　　0引言　　网络信息不断膨胀。伴随而来的问题是信息质量的参差不齐，不实信息（如虚假信息、过时信息）极易误导用户的判断。如何判断信息的可信度，帮助用户从海量信息中甄别出可信的信息，成为了当今社会迫切需要研究解决的问题。　　信息可信度，是指对于信息本身以及信息源的可信任程度[1]。人们是依赖众多客观因素、基于经验对信息的可信度做出逻辑判断。上述判断具体包括：对于信息质量和精确度的客观判断，以及对于信息来源的可信赖性、信息专业权威性和信息吸引力的主观感受[2]。本文结合人脑对信息可信度的逻辑判断机理、针对网络信息质量所呈现的规律特点研究信息可信度的评估方法。　　目前，网络信息的质量主要表现为以下规律：　　（1）关于一个主题，不同信息源提供正确信息的内容往往一致或近似；若提供的是有误信息，则有误之处各不相同。　　（2）可信的信息源提供的信息多数是正确的，反之不尽然，正确信息的来源的可信度可能良莠不齐。　　由此，认为网络中信息的可信度主要可以通过两方面来评估：信息源的可信度、以及信息在网络的分布特点。　　基于以上思想，本文设计了一个面向网络文本的信息可信度评估方法，借助两层特征空间来评估信息的可信度，并通过提取可信信息候选集，为用户提供高可信度的相关信息。其中，信息的第一层特征空间由信息源的特征构成，用于判断信息源的可信度；第二层特征空间由信息源可信度的分析结果以及信息在网络的分布统计特征构成，用于最终评估信息的可信度。　　本文的主要研究内容和创新点包括以下三方面：　　（1）在提取可信信息的候选信息阶段，通过词语结构过滤器来提取候选信息。提高了候选信息提取的准确度。　　（2）在信息可信性度计算阶段，对信息的发出商业意图是否明显、更新信息是否及时、网站权威性等角度综合考量信息源的可信度，进而丰富了候选信息的特征空间。　　（3）结合本文提出的评估方法，设计实现了基于中文搜索信息的信息可信度评估系统。系统在实验中获得89%的准确度。　　1相关工作　　关于网络信息的可信度评估方法研究，当前已有的研究成果可以根据研究对象的信息承载形式的不同分为三类，具体分析如下：　　第一类是对网状结构的网络（如P2P网络、语义网或社交网络）所承载的信息的可信度评估方法研究。这一类研究主要探讨的是某个节点在整个网络中的可信度问题，以及如何自动辨别出哪些节点是不可信的，并将这些节点从网络中剔除出去。常用的方法是信任值的传播，这是针对网络结构设计的方法，信任网络常常得到使用。Kamvar提出了通过以往的表现（上传历史）来判断P2P网络中病毒来自哪一个匿名恶意的发送端[3]。Richardson在关于语义网的信任管理研究中提出，任何一个用户保留一个他所信任的用户集，利用信用网络传播信用值[4]。在社交网络中用N维矩阵记录信任和不信任信息，并通过网络任意两点间的信任信息矩阵计算传播信任度[5]。　　第二类是对群体智慧网站（如网上论坛和合作知识库）所承载的信息的可信度评估方法研究。群体智慧网站的共同之处是用户贡献自己的信息到 Web上，集合了用户的群体意见和集体智慧，因此这方面的相关工作都是利用用户的评论、打分来判断信息的可信度。Deborah通过分析修改历史来获得对修改版本的信任度[6]。修改文章的可靠性取决于三点，分别是：之前版本的可靠性，最后一个版本的作者的信誉度及修改内容。在协作信息系统中，修改历史是可以广泛有效利用的重要特征。　　第三类是对独立的网站或网页上信息的可信度评估方法研究。网站的建设者预计获知哪些特性，使其能够提升用户对网站的信任感，而哪些特性会削弱用户的信任感。而作为信息浏览者的用户，在浏览网页时则需要辨别网站或者网页的可信度，判断其提供的信息是否真实可信。Lee构造了一个真实可信事实库，并利用其来检测一个可疑信息的可靠性[7]。Kawai开发了一个可视化显示新闻地址趋势的消息系统，通过该系统可以判断相应新闻网站的可信度[8]。　　Kyoto大学的WISDOM系统（http：//wi