- 1、本文档共47页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
内蒙古科技大学硕士学位论文
1 绪论
研究背景和选题的意义
淘宝网()在中国是最深受欢迎的网络购物平台,目前拥有超过 6 亿的
注册用户数,有超过 7000 万人/每天的固定访客数量,每天有超过 8 亿件商品在线出售
并且平均每分卖出超过 5 万件商品。
淘宝网一直努力在做能够提供基础服务的平台,上至世界知名的大品牌商家,下至
最普通的淘宝小用户都可以在淘宝网上面注册开店[1]。这样降低了进入淘宝卖家行列的
门槛,但是也带来了一些问题。淘宝网里的商家鱼龙混杂,所提供商品的数量及种类也
是相当繁多,正品和假货仅通过商家描述根本无法正确分辨。在这样的环境之下,想去
找到一件物美价廉的商品就变成了一件相对比较困难的事情。
现在,互联网已经逐渐演变成为一个非常大的开放环境的平台,很多优秀的网站为
开发者免费开放很多 API 接口,开发者通过 API 接口调用数据,可以根据市场需要开
发出需要不同功能的应用软件,从而满足开发者以及很多追求个性化服务的人们的需求。
淘宝网就是这样一个网站,它通过自己的开放平台向开发者提供许多 API 接口,通
过这些接口开发者可以获取淘宝商品的各种信息(名称、类目、型号、介绍等等)、淘
宝商品类目信息(全淘宝商品索引及分类明细)、淘宝商品评价信息(在取得用户授权
的情况下,查询卖家获得的评价信息)等等,并建立相应的电子商务应用[2]。
课题的目的
随着淘宝网的不断发展,商品销量的不断增加,买家对商品及其卖家发表的大量的
评价信息不像过去那么容易被捕捉。有些销量较好的淘宝商品在 30 天内会有几千甚至
上万件的销量,买家留下的评价信息少则上千条,有的甚至多达几万条。这些评价中包
含着消费者对所购买的商品的质量方面、物流方面以及卖家服务方面等因素的感受,大
量关于不同方面的评价信息混杂在一起,非常的杂乱无章,这就对买家的阅读和信息的
获取造成了很大的麻烦,人工阅读费时费力,而且很难过滤出自己最想知道的相关产品
的信息,大量有用的信息会被遗漏掉,效果肯定不会很好。商品评价中包含的属性如图
所示。
-1-
内蒙古科技大学硕士学位论文
商品
质量 服务 物流
做工 款式 态度 售后 发货 物流
图 1.1 淘宝商品评价中包含的商品信息
淘宝商品的评价大都存在信息数量巨大,包含商品多项指标的特点。有些好评是因
为卖家服务态度较好或者队发货以及物流的速度比较满意,但是对商品本身并不满意;
有些差评则是因为物流太慢或者卖家服务态度不好等等原因。差评并不一定说明商品质
量必然存在问题,而好评也不一定说明商品质量没有问题。这就对消费者通过评价了解
产品造成了困难。
如何将所有的评价按照消费者最关注的几个方面进行分类或者将大量非结构化的文
本整合成结构化的、直观的、数值型的内容,让用户使用时一目了然,这就是本课题的
目标所在。
课题的意义
(1)软件开发者通过淘宝开放平台提供的开放 API,可以自由构建出不同应用的
软件,从而满足人们个性化的需求。但是由于评价 API 接口获取的评价信息是无结构化、
杂乱无序的,这使得开发者开发出的关于商品评价的软件具有了很大的局限性。本课题
对淘宝商品评价信息按照不同属性进行分类,可以方便软件开发者构建出功能更加完善
的程序和软件。
(2)帮助买家购买适合自己的产品。许多淘宝网的资深买家在有意向购买某件商
品之前,一般都会通过该商品之前的购买者留下的相关评价了解该商品的各个方面的具
体信息,了解商品的优缺点,最后决定是否值得购买,这就使购物更加的科学。
(3)帮助卖家发现商品的不足,提供更具竞争力的商品。商品评价分类能展示出
商品受买家关注的各项指标属性,及时发现所售商品存在的问题,提高卖家的市场竞争
力。
-2-
内蒙古科技大学硕士学位论文
研究的现状和存在问题
评价信息挖掘近几年来在自然语言处理领域内成为最热点的课题之一,在中文以及
英文的相关领域都取得了快速的发展和长足的进步[3~5]
然而目前的相关研究领域主要都是研究关于文本情感倾向以及如何提取情感特征词,
对于商品特征词提取的相关算法的研究还是很少的。近几年对于文本情感倾向和情感特
征词提取的研究有很大的发展,如 Turney 算法[2,6],它通过算法将评价文本分成褒义和
贬义两大类。在评价信息文本中,能够对语义情感倾向性有影响的主要是形容词、名词、
副词。对于语义的平均倾向性如果为负的话,就把这条评价信息文本归类为贬义,反之
就把其归类为褒义。Turney 使用 PMI‐IR 算法计算情感短语模型或者其他相关词语在
“poor”以及“excellent”之间的差值来判断这个短语模型或者词语的情感倾向性。
目前其实也已经有很多文本情感倾向的知识库或者应用词库可以供我们使用,
比如 SM Kim 和 E Hovy 建立的
您可能关注的文档
- 基于高分辨率遥感影像土地覆盖变化检测研究.doc
- 汉语句法树库不一致发现系统的设计与实现.doc
- 任务型合作学习模式在泰国汉语口语教学中的应用研究——以派克圣科技管理学校为例.doc
- 政府行为与医药制造业集聚研究.doc
- 小儿泄泻证素分布及组合规律的临床研究.doc
- 家族性腺瘤性息肉病APC基因突变分析.doc
- 终极所有权结构对内部控制信息披露质量影响研究.doc
- 提升机制动性能安全评价方法与监测系统的研究.doc
- 星形hub选址问题若干新模型研究.doc
- 食管鳞癌中DLL4、VEGF的表达及其临床意义探讨.doc
- DB3411_T 0009-2022 池河糕小作坊生产规范.docx
- DB3410_T 21-2023 多花黄精病虫害绿色防控技术规程.docx
- DB3415_T 17-2021 茯神栽培技术规程.docx
- DB3415_T 20-2021 山区茶树气象灾害指标划分技术规范.docx
- DB3415_T 24-2022 六安瓜片茶 手工炒制加工技术规程.docx
- DB3415_T 25-2022 六安瓜片茶 机械炒制加工技术规程.docx
- DB3415_T 58-2023 预制菜包装、贮存、运输规范.docx
- DB3417_T 014-2022 池州特色小吃 贵池小粑.docx
- DB3418_T 014-2022 电机检验检测机构后勤服务规范.docx
- DB3418_T 015-2022 电机检验检测机构客户服务规范.docx
文档评论(0)