- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
我们现在呈现一种能识别比较句的方法------CSR挖掘和机器学习的结合。在规则中序列模式被用作特征。CSRs是用一个类序列规则挖掘系统自动实现的。一个关键字策略用来过滤掉那些不可能是比较句的句子。对于分类,我们用两种方法进行实验:
直接用CSRs
基于规则用机器学习方法建立一个分类器。
我们将讨论两种方法,下面先定义CSRs,然后产生数据用来发现规则。
4.1 多个最小支持度的CSR
序列模式挖掘是一个重要的数据挖掘任务,输入一个序列集,SPM的任务就是找出满足用户最小支持的所有序列模式。一个序列模式就是一个子序列----在输入序列中比最小支持率的阈值出现的频率高的子序列。
CSR就是序列模式在左边,类标签在右边一种规则。不像类序列模式挖掘是无监督的,因为我们用固定的分类进挖掘序列模式规则,所以新的方法是监督的。现在我们就定义CSRs。
I=是个项集,一个序列是个有顺序的项集。一个项集X是不空的。我们定义一个序列s,
如果X是数据集D中的的实例()的的子序列,那么着个实例()叫做覆盖CSR;如果且,那么
()满足一个CSR。规则的支持度是在D中满足规则的所有实例的百分比。规则的置信度是在D中覆盖规则又满足规则的的实例的百分比。
表一给了一个例子序列数据库(五个序列和两个类别 )。用最小20%的支持度和最小40%的置信度,例如CSRs中的而一个:
?{1}{3}{7, 8}? → c1 [support = 2/5 and confidence = 2/3]
数据序列1,2满足规则,1,2,5覆盖规则。
给一个类标签序列数据集D,给一个最小支持度和一个最小置信度,CSR挖掘出在D的所有类序列规则。挖掘算法是被涉及,超出这篇论文的范围。(详细见 [20]).
多个最小支持度:上面的模型用的是一个最小支持度来控制规则的产生。但是,对我们的情况来说,这是不够的。因为有的单词(可以暗示是比较句)出现的频繁,有的单词出现的少。现存的序列模式发现在数据挖掘的算法用只有一个最小支持度来控制模式产生过程。识别含有低频率的单词的模式显然这是不足的。因为我们需要建立很低的最小支持度,这样就会导致高频率单词产生庞大的模式----(过拟化overfitting)。这样,我们提出多个最小支持度模型来解决这个问题。在这个模型中每一个单词基于出现在训练集中的频率有一个最小支持度。
这个模型让我们找到了那些不会产生太多过拟和的含有的规则。需要指出的是多个最小支持度关系规则在[18]中被研究。但是,它的算法不能被应用到这里,因为算法需要用一个特殊的顺序精简每一个句子的单词,这样打破单词序列。为了得到多个最小支持度的效果,我们用(他是通过实验得到的参数,我们用0.01)。从第一行到第三行,我们看到最小支持度随着在数据中的的项目的频率的改变而改变,这样对于频繁项目的最小支持度会高些,而不频繁项目的支持度会低些。The function CSR产生出在W的项目的所有规则。
1. Compute the frequencies of all the items in the training data
2. for each group of items W with the same frequency do
3. minsup = frequency(W) * τ;
4. CSR(trainingData, W, minsup, minconf);
5. end_for
4.2 为挖掘构造数据集(Constructing the Data Set forMining)
我们现在就来讨论怎么从文本中构建数据集。既然在这个项目中,而我们研究的是句子,那么每个句子被看做一个序列。但是,我们不能用原始的每个句子的单词,因为一些句子的内容不同,但它们的模式完全相同。如果用原始单词的话,,这样的模式或许不会被发现。,例如:下面的两个句子比较了不同的物体。:
“Intel is better than Amd”, and
“Laptops are smaller than desktop PCs”
仅仅比较单词,系统不会发现任何模式,除了一个相同的的单词“than”。但是,人回很清楚地看见一个模式。这样,POS标注抓取了独立于语言模式的内容(你是对我们有用的)。
4.2.1 关键字策略
我们的对比较句很感兴趣。我们和容易找到一些关键字老覆盖几乎所有的比较句,例如:有很高的召回率。但是精确率却很低。这就需要我们设计一下策略进行学习。
关键字策略:既然 召回率很高,精确率低,我们就尝试着改善精确率。更准确的说,我们只考虑包含至少一个关键字的句子,然后产生CSR来过滤掉那些非比较句。这已经暗示了我们的数据集产生。也就是说那些
文档评论(0)