- 1、本文档共95页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第11章商务智能应用讲述
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 11.3 意见挖掘(续) 意见挖掘这个词最早出现在Dave、Lawrence和Pennock发表在国际学术会议WWW上的一篇文章中,随后被广泛研究和使用。 本节主要介绍有关产品评论的意见挖掘相关的概念和主要方法,包括: 特征和意见的抽取 意见极性判断 11.3.1 特征和意见的抽取 特征和意见的抽取是从评论文字中将评论的特征和意见分别提取出来。例如: “样子很经典,画面清晰,功能多,速度快,只是电池不耐用,价格也有些高” 则应抽取的特征和意见对包括:(样子,经典),(功能,多),(速度,快),(电池,耐用),(价格,高)。 目前对产品评论的特征抽取的方式分别为有监督(supervised)以及无监督(unsupervised)两种方式。 基于频繁模式的无监督的特征抽取方法 用户评论的产品特征分为两类:频繁特征和非频繁特征。 特征的抽取首先从频繁特征的识别开始,通常特征是用名词或名词短语表达的。 评论先经过词性标注(part-of-speech tagging,简称POS tagging)工具将每句评论进行分词和词性标注,将每个词标记为名词、动词、形容词、副词、代词等。 然后,每个句子中的名词组成交易数据库的一行,通过频繁项集的挖掘,找出满足给定最小支持度(如1%)的所有名词及名词的组合。 候选特征及意见词的抽取 频繁的名词组合作为候选特征需要经过筛选,去除那些冗余的或不紧凑的。 计算相邻的词ni和ni+1之间的距离d(ni, ni+1)=pi+1?pi,如果此距离不小于给定的阈值,如3,则称该名词组合在该句子中是紧凑的,才认为有可能是产品的特征。 如果包含一个名词组合但不包含该名词组合的超集的句子的个数不满足一定的阈值,如3,且候选特征中存在它的超集,则认为该名词组合是冗余的。 意见的抽取则基于已经发现的特征,在包含特征的句子中,出现在特征附近的形容词或副词很有可能是对该特征的意见表达,因此作为意见被抽取。 11.3.2 意见极性判断 意见的极性的自动判断便于对评论进行汇总,判断其意见是正面还是负面的。 意见的正面与否取决于意见词的语义,意见词极性判断的方法也可以分为无监督判断方法和有监督判断方法。 基于词典的判断极性的无监督方法 表达意见的词除了形容词外,有时副词、名词、动词也可以表达主观意见。这些意见词有两类: 一类称为上下文无关的意见词,即其极性不依赖于所处上下文,例如,好、漂亮都是正面的意见,无论是用于表述什么对象或什么特征。 另一类则是上下文有关的(context-dependent)意见词,例如,“高”有时表达的是正面,例如,“精度高”,有时表达的是负面,例如,“价格高”。 基于词典的判断极性的无监督方法(续) 基于词典的极性判断方法假设上下文无关的意见词的极性是已知的,并且拥有一个上下文有关的意见词列表和上下文无关的意见词列表。解决的问题有两个: 问题1, 如何综合一个句子中多个意见词的极性判断所描述特征的整体极性? 问题2,如何判断上下文有关的意见词的极性? 基于词典的判断极性的无监督方法(续) 问题1的解决主要基于句子内的否定词、转折词来判断单个意见词的极性,然后基于意见词与特征之间的距离,对各个意见词的极性进行加权求和。 问题2的解决方法主要根据子句之间或句子之间的关系,例如,并列或转折等,来判断上下文有关的意见词的极性。 * * * * * * * * * * * * * * * * * Collaborative Filtering Road Map User-User Methods Identify like-minded users Memory-based: KNN Model-based: Clustering Item-Item Method Identify buying patterns Correlation Analysis Linear Regression Association Rule Mining U4 U1 U3 U2 U5 用户层 项目层 R1 R 2 R3 R 4 I1 基于用户的协同过滤User-User Method Intuition Similar users have similar preferences If u ? u’, then for all o’s, f(u,o) ? f(u’,o) User similarity (Zhang San vs. Li Si) Suppose Zhang San and Li Si viewed similar movies in the past six months
文档评论(0)