- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
产品属性描述语识别方法研究与实现
摘 要:随着互联网的快速发展,网上购物成为日常生活中必不可少的一部分。但在面对琳琅满目的产品时,人们往往在选择上而大费工夫,由此产品评论逐渐成为人们了解产品的首要依据。在产品评论中,产品的属性描述对于用户了解产品有极大的帮助。 本文提出了一种基于序列标注模型的产品属性描述语的识别方法。首先,利用爬虫程序从京东网站上选取了3000条电子产品相关的评论,中文分词后使用BIO标注法对其进行手工标注。其次,利用标注好的语料分别训练CRF模型和Bi-LSTM-CRF模型。最后,用构建好的学习器自动标注测试集中的词语,根据预测标签和实际标签的对比结果分别计算基于这两种模型的方法的准确率、召回率、F1值[1]。 通过实验结果的对比与分析,有预训练的词嵌入的Bi-LSTM-CRF模型性能最优,平均准确率达82.1475%,平均召回率达80.7888%,平均F1值达81.4625%。有预训练的词嵌入的Bi-LSTM-CRF模型拥有较好的识别产品属性描述语的效果。 关键词: 产品属性描述语;Bi-LSTM-CRF模型;产品评论 前 言 随着互联网的快速发展,电子商务平台如淘宝网,京东商城越来越受到人们的欢迎,网上购物称为人们生活中不可缺少的一部分。但在面对琳琅满目的产品,高低不等的价格,信誉未知的商家时,人们往往在选择产品上需要花费大量的时间,而产品评论是买家在网上发布的主观看法,具有真实性,因此产品评论逐渐具有非常重要的意义。客户可以从评论中判断商品各个方面的优劣,从而加快选择的速度,而商家也可以通过了解评论及时改进产品,形成一种良性循环和双赢局面。 显而易见,产品评论中包含了大量的重要信息,越来越多的企业或学者开始分析挖掘其潜在的价值。由于网络上的产品评论数量庞大,并且每条评论中针对产品不同方面的褒贬不同,如何有效的处理评论并提取出评论中最重要简洁的信息成为目前研究的热点问题。 目前,对产品评论的标注主要是属性三元组标注,分别为描述语,类别和情感极性。其中,描述语是评论中描述产品属性类别的词语,如评论这手机的外观真好看中的外观一词,类别是评论中关于产品不同方面的归纳词,如评论这手机的外观真好看中的类别是手机#设计,而情感极性分为正面,负面和中性。 在句子级评论中,首先识别产品的属性描述语,有助于归类标注产品的属性类别,再通过不同的类别,分析评论中的情感极性。所以,识别产品属性描述语是分析产品评论中针对产品不同类别中不同情感的重要基础。识别产品属性描述语具有重要的意义。 本文主要介绍了识别产品评论中产品属性描述语的方法,以京东商城中电子产品领域的评论作为语料,从中选取了3000条进行标记训练,研究各个模型的标注效果并分析原因。本文实验部分的主要任务如下: (1)编写python爬虫程序,从京东网上选取3000条电子产品的评论作为本文实验的语料。 (2)调用Python里的jieba包对3000条评论进行中文分词处理。每个词语占一行,句子与句子之间用======隔开。 (3)以6:2:2的比例将语料分为训练集,测试集,验证集,确定好属性描述语的标注规范后,分别对三个语料集用BIO标注法手工标注。 (4)根据序列标注模型的需要,使用python中的gensim库,调用word2vec函数,将所有语料中的词语映射到一个语义向量空间,即构建预训练好的词嵌入。 (5)将标记好的训练集训练构建学习器,利用验证集调整参数,最后将学习器自动标注出的结果和测试集手工标注的结果进行比较。比较的要素有准确率,召回率和F1值。 (6)将各个模型的实验结果进行综合对比分析,总结各个模型的优缺点。找到标注效果最好的识别方法。 第一章 绪 论 本章首先介绍了产品属性描述语识别技术的研究背景和意义,初步了解为什么要进行产品属性描述语的识别,然后阐述了本文的实验主要进行的工作,最后总结了本文的文章组织结构。 1.1 研究背景及意义 随着互联网的快速发展,电子商务平台如淘宝网,京东商城逐渐成为了人们生活中必不可少的部分,人们习惯于在网络上购买产品,并把自己的主观看法发表在网络上以供其他人浏览。由于网络上所展现的产品过于繁多,价格也参差不齐,买家在购买的时候,必然要花费大量时间去做筛选,并且越来越倾向于通过产品评论来了解产品真实的情况,由此产品评论具有非常重要的意义。客户可以从评论中判断商品各个方面的优劣,而商家也可以通过阅读评论及时改进产品,形成一种良性循环。 大量的企业人员和学者开始将目光投向产品评论上,想要通过文本的分析来挖掘出隐藏在评论中的潜在价值,比如产品各个方面的属性,买
您可能关注的文档
- “冰上丝绸之路”黄金通道对俄贸易的影响.doc
- 【化学试验】镁铝双金属氢氧化物改性硬硅钙石对铅离子的吸附研究.doc
- 1KW负载光伏市电供电(互补)智能控制系统设计.doc
- 2019—2020学年广东省广州市增城区九年级物理期末考试模拟试题(有答案).doc
- 2020北京各区初三一模化学分类汇编—基本实验及其原理分析含答案.doc
- 2020北京各区初三一模化学分类汇编—科普阅读含答案.doc
- 2020年山东省临沂市平邑二中中考物理模拟试卷(5月份)(有答案).doc
- 2020年四川省成都市青羊区中考物理二诊试卷(有答案).doc
- ONLY的品牌营销策略分析.doc
- ppp模式在我国面临的问题及对策研究.doc
原创力文档


文档评论(0)