在线评论信息挖掘分析数据来源可靠性研究.docVIP

在线评论信息挖掘分析数据来源可靠性研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
在线评论信息挖掘分析数据来源可靠性研究

在线评论信息挖掘分析数据来源可靠性研究   摘要:通过将研究分解成三个子任务,对网络数据从运用PageRank与TrustRank剔除作弊网页开始;借助结合网页间主题相关度、时间差以及在线评论比例的权重的TCPageRank算法,提炼与产品主题高度相关并包含大量在线评论数据的网页集;最后考虑了网页与产品主题的相似度以及网页的链接增幅对网页权威性的影响,运用改进的HITS算法,确定在线评论分析数据来源的权威网页集;而基于MapReduce的矩阵分块运算,降低了算法时空的复杂度。并通过仿真实验验证了该方法的可行性与准确性。   关键词:在线评论;PageRank;主题漂移;链接增幅   DOI:10.13956/j.ss.1001-8409.2015.04.21   中图分类号:F71355 文献标识码:A 文章编号:1001-8409(2015)04-0094-06   Analysis of Reliability Data Source on Online Reviews Information Mining   LI Jinhai, HE Youshi   (School of Management, Jiangsu University, Zhenjiang 212013   )   Abstract:Through resolve the research into three subtasks, starting from operation PageRank and Trust Rank eliminate cheating page of network. Refining web page of high topic relevance by TCPageRank combined topic relevancy between web pages and weight of time difference and reviews on web page. Finally, thought of similarity between page and topic of product and amplification of page have the influence on the web authority, determine the authority of the web page of online review analysis data source by the improved HITS. The partitioning of matrix operation based on Map Reduce, reduces the time and space complexity of the algorithm. And through the simulation experiments it verifies the feasibility and accuracy of the method.   Key words:online reviews; PageRank; topic drift; amplification of page   引言   据CNNIC报告,2013年我国新增网民5千万人,互联网普及率近46%,处于世界平均水平之上,其中网络购物人数占网民的50%,中国预计将于2015年成为全球最大的网购市场[1]。   网络购物的劣势在于无法亲自感受商品,因此越来越多的网购者通过浏览大量的在线评论来了解产品以及服务的口碑,依此作出可靠的决策[2]。   但是面对海量评论,消费者无法快速辨别和利用有价值的信息来作出正确的决策。因此针对在线评论挖掘的研究被学者们所关注,Senecal等认为在线评论影响消费者的购买决定[3]。Popescuam等将在线评论挖掘细分为4个子任务:特征抽取、观点抽取、极性判断、结果的汇总[4]。廖成林等借助亚马逊商城的样本进行实证研究,分析了在线评论有用性的影响因素以及各影响因素之间的作用机制[5]。龚艳萍基于ELM视角构建了消费者处理在线评论的双重路径模型,并探讨了在线评论的属性对消费者采用新技术产品意愿的影响机理[6]。   目前关于在线评论的研究集中于评论内容挖掘模型以及评论有用性的研究,鲜有学者关注在线评论数据来源可靠性的研究,而可靠数据的获取是研究的基础也是关键的一步。   1可靠在线评论数据源的挖掘流程   若要在海量的网络数据中获得可靠的评论数据,除了优秀的网页采集工具外,确定所要采集的数据来源是关键。传统的用于在线评论分析的数据大多数来自购物网站,这些数据来源的优势在于分类明确、内容精简。这些评论

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档