- 1、本文档共60页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
摘要
互联网是人类获取数据的重要来源,因此,如何从互联网上的海量数据中
获取准确可用的数据,成为了一个研究热点,信息集成、问答系统、知识发现
等都与互联网的信息获取技术息息相关。随着人类社会进入互联网时代,人类
在互联网上留下了包括社交、购物、交易、娱乐等多种多样的数据,数据的获
得显得简单而便捷。但是,数据的爆炸式增长也为信息的获取增加了难度,在
大量的数据中筛选出有价值的信息是一件费时费力的事情。同时,由于互联网
上的数据来源很多,不可避免的存在有一部分的数据源在提供信息时有错误、
遗漏或者是过期的情况,因而对于同一对象的描述并不能保证完全一致,这也
使得对数据的利用较为困惑。在DeepWeb方面,很多数据提供商均会提供对同
一对象的描述,并且均存在一定程度的加工,如何挖掘数据中的真值是个值得
研究的问题。在大数据时代,数据是极有价值的东西,如何利用数据始终是一
个热门的话题,而怎样保证数据正确性,并消除数据间的不一致导致的歧义,
则是数据在使用过程中至为关键的问题。
图模型与真值发现问题的研究已经经历了很长时间的发展,将图模型合理
应用于真值发现中将有助于模型结果的优化,得到较好的真值预测效果。本文
进行了基于图模型的真值发现问题研究,借助网络爬虫抓取了包括豆瓣、孔夫
子、有路网、中国图书网等网站上的书籍信息,构建了基于图模型的多真值发
现算法,并通过实验验证了本文算法的有效性。本文的创新点概括如下:
1.提出了多真值发现中一种初始真值的确定方法CVote,该方法基于传统
的投票法,改进投票法在多真值发现应用中的限制,有效提升后续真值
发现计算的准确度。
2.构建了基于图的真值发现模型,并确定了值之间的支持度计算方法,提
出了基于图模型的真值发现算法GraphTD。
3.将本文提出的理论模型实现,并在书籍作者数据集上进行试验,证明了
本文方法的有效性,对比实验也表明,初始真值的选择对最终真值的计
算存在一定的影响。
本文基于图模型构建了书籍作者数据集上的真值发现算法,借鉴隐马尔科
夫模型的转移概率得到了冲突数据源中数据描述的可信度转移矩阵,根据转移
矩阵计算了数据描述值的为真的概率的收敛值。同时提出了一种多真值发现算
法中初始真值的确定方法CVote,改进了投票发在多真值发现应用中的不足。本
文在书籍作者数据集上实现了所提出的真值发现模型并与现有研究中的模型进
行对比,证明了本文方法的有效性,为真值计算提供了又一种可选思路。
关键字:真值发现;图模型;支持度;多真值;可靠性
Abstract
TheInternetisanimportantsourceofhumandataacquisition.Therefore,howto
obtainaccurateandusabledatafromthemassivedataontheInternethasbecomea
researchcentralissue.Informationintegration,QuestionAnsweringSystem,and
knowledgediscoveryareallcloselyrelatedtotheinformationacquisitiontechnology
oftheInternet.WiththeentryofhumansocietyintotheInternetera,humanbeingshave
leftavarietyofdataontheInternet,includingsocial,shopping,reading,and
entertainmentandsoon.Andtheacquisitionofdataseemssimpleandconvenient.
However,theexplosivegrowthofdatahasalsomadeitdifficulttoobtaininformation.
Itis
您可能关注的文档
- 安全生产政府监管问题与对策研究—基于18起安全生产事故报告.pdf
- 保险公司车险业务APP营销策略研究——以平安好车主APP为例.Removed-Output.pdf
- 不同质量信号对知识产品购买决策的影响研究.pdf
- 财税支持对农业企业经营绩效的影响研究——基于农业上市企业的实证分析.pdf
- 城市轨道交通PPP项目绩效评价研究.pdf
- 传统诗词VR传播平台的建立与发展.pdf
- 村庄组织对乡村治理的影响研究.pdf
- 大企业税收管理部门税收管理信息化建设存在的问题与对策研究——以S省税务局为例.pdf
- 大学生社交短视频App使用行为的调查研究——以武汉市洪山区普通高校为例.pdf
- 大学生信用消费风险现状及其影响因素研究——以武汉市大学生为例.pdf
文档评论(0)