- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
在线用户评论主题发现研究
在线用户评论主题发现研究
〔摘 要〕在线用户评论是电子商务网站中的一个重要板块,找出在线用户评论的关注点有利于网站、商家及时有效地查看用户的反馈信息。本文在对在线用户评论进行分词的基础上,分别使用拉普拉斯评分(LS,Laplacian Score)及信息增益(IG,Information Gain)对所得到的分词结果进行文本主题挖掘,并使用支持向量机(SVM,Support Vector Machine)进行分类精度的检验。实证结果表明,主题选择的结果是有效的,分类的效果与选择的关键词个数和核函数有关。
〔关键词〕中文分词;主题发现;拉普拉斯评分;信息增益;支持向量机
DOI:10.3969/j.issn.1008-0821.2015.09.012
〔中图分类号〕 〔文献标识码〕A 〔文章编号〕1008-0821(2015)09-0063-07
〔Abstract〕Online users reviews are important for e-business website,and finding the topic of these reviews can help both websites and businesses pay close attention to users feedbacks.Based on word segmentation,this paper separately used laplacian score(LS)and information gain(IG)to find text topic,and then support vector machine(SVM)method was used to verify the classification accuracy.The results showed that it is effective to select the text topic and the accuracy is related to the number of topic and the core function used.
〔Key words〕word segmentation;topic discovery;LS;IG;SVM
我国电子商务市场起步较晚但发展迅速。根据2014年5月由中国互联网协会与中国互联网络信息信息中心(CNNIC)联合编纂发布的《中国互联网发展报告》(2014)显示,2013年,我国互联网用户已达到618亿,其中电子商务用户达到302亿,相比2012年增长5 987万人,4890%的网民使用网络渠道进行购物消费,电子商务的市场规模也达到了99万亿。蕴藏巨大潜力的市场使得各大网站不断完善自身建设,而在线用户评论模块则是网站建设中不可忽视的一环。Double Click Inc研究了美国旅游业、计算机硬件业、运动健身行业以及服装业的网络用户行为,发现将近一半的用户会在购买前在网络中搜索产品的相关信息及用户评价等[1]。
目前学者们对在线用户评论的研究主要集中在主题发现研究(商品或用户的特征发现)[2-8]、评论质量检测[9-12]、情感倾向识别[13-15]及相关内容推荐[16-17]等方面,其中,主题发现研究是后续研究中较基础的部分,也引起了很多学者的关注。
APons-Pottata[2]利用将层次聚类和划分聚类相结合的方式进行主题发现;Blei[3]对LDA(latent Dirichlet allocation)模型进行全面的解释后,由于概率主题模型出色的文档建模和维度削减能力,主题模型在文本挖掘领域得到了迅速的发展;阮光册[4]针对网络在线用户评论信息内容短、信息量少的特征,提出了基于LDA主题发现模型,结合HowNet知识库进行信息分析的方法,实现了对在线用户评论信息主题的挖掘;李慧、张舒等[5]为准确挖掘用户评论中的有用信息,提出了采用页面分块与信息熵的迭代计算技术的用户评论抽取算法,实现了评论块的自动发现与抽取;陈友、程学旗等[6]提出了一种利用特征抽取技术提取内容特征,利用结构特征去发现高质量主题的框架,并提出了一种基于遗传算法、禁忌搜索与机器学习的特征选择算法,用来评价被抽取特征的重要性;吕韶华、张亮等[7]主要针对餐馆评论提出了一种基于LDA的排序方法,通过抽取、过滤、计算评分、回归等步骤确定排序模型;罗辉停[8]为克服应用LDA模型挖掘在线用户评论热点方法不能自动确定热点话题的数目的问题,提出了应用中餐馆模型来挖掘在线用户评论热点。
以上学者对在线用户评论主题挖掘的研究,主要集中在使用LDA及其改进模型以及针对评论特征的算法实现等方面的研究。本文利用图
原创力文档


文档评论(0)