提取热点问题的新方法(基本).docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
提取热点问题的新方法(基本)

提取热点问题的新方法 基本思路和观点 基本观点1:文档标题中包含了部分、甚至大部分的语义特征词(组)。从标题中提取特征词比基于词频在文本内容中纯统计方法提取特征词具有更好的质量。 基本观点2:标题中不可能包含文档语义的全部特征词。因此,在一定条件下,仍然需要在文本内容中用统计方法提取更为全面的特征词。具体而言,在基于标题特征词的聚类完成后,使用各聚类中质量较高的少数文档,在有分类的情况下,可以更好地提取内容中的特征词。 基本观点3:基于向量欧几里得距离的向量比较并不适合于文本相似性比较。文本相似性更依赖于共有的特征词的多少,而不在于特征词在词频上相近。 基本观点4:在文本相似性比较中,特征词之间的关联性也很重要。所谓关联性,表示特征词是否经常同时出现。如果两篇文档的共有特征词的关联性强,就更相似。 基本观点5:K-MEANS聚类不适合于热点发现。在热点发现中,有大量文档不属于特定的分类(热点问题)。由于K-MEANS需要将所有文档分配到某个类别中,这些文档对聚类中心的影响非常大。 主要步骤 提取有效标题 目标:在有栏目路径的标题中,提取有效标题。 基本方法:采用标题横向字符串比较来发现栏目路径,从而提取有效标题。 问题1:有的网页直接采用栏目名称作为标题。需要区分文档性网页和栏目性网页; 问题2:栏目路径的表示方法各不相同。有从左到右,也有相反的;分隔符也有多种。 提取标题中的特征词 目标:发现标题中能够表达文本语义的特征词。一个特征词常常不是一个词汇,而可能是一个词组。 基本方法:在内容中对标题词汇的各种组合进行查询,提取在文本中独立出现过的词汇(组合)作为特征词。 讨论:上述方法仅仅是在内容中查找是否存在标题词的某种组合,但并没有判断该组合对文章语义的重要性。但经过词性过滤后,大部分词汇还是能够反映文章语义的词汇组合。然而这些词对文章语义的重要性是不同的。在一篇文章中高频出现的词汇,其重要性不言而喻。为了后期聚类时进行改进,我们应该保留一个词组在文章中的关键词频。 但另一个问题是,如果一个词组在多篇文章中均有出现,如果保存其词频? 关键词对某篇文章的重要性是在向量化是体现的。因此这里并不需要保存其词频! 改进: 考虑标题中的分隔符(逗号,冒号和空格)对词组的影响; 考虑《》和“”中词组的完整性。 这些标点应该纳入完整词组中。但其中的纯粹词组也是有效的! 形成词组时,单独的标点不能出现在词组的两端,除非是上述配对的标点。 问题: 关键词数量太多!对聚类的效率影响很大。 标题关键词重叠很少,COS相似度很低。DBSCAN选择EPS需要某种方法。 最大词匹配分词算法对标题进行处理后,仅输出最长关键词(往往是标题本身提供的关键词)。这不利于与其它文章(标题)之间的比较。统计标题关键词时,应该在词汇边界的约束下,尽可能多地找到其中可以匹配的所有关键词。相互嵌套的关键词独立计数?如“在北京大学”,“北京大学”,“大学”。 从内容识别标题关键词时,遗漏了很多关键词。如“在北京大学”在文章内容中出现一次,由于“北京大学”没有独立出现过,因此被遗漏。这个问题可能不是很严重:其它文章可以补足关键词。 有一些不合理的关键词组。如“经历统统造假”。但这些关键词组可能不会对聚类造成不利影响。 增加标题关键词的权重(次数)的方法并没有使具有相同关键词的文章间的相似度变得更大。eps仍然需要微调才能勉强是应该是同类的文章聚类在一起,且还包含很多无关文章。从分析的角度看,需要输出任意两个文档所共同拥有的关键词。 思考: (1)对标题采用完全句法分析是可行的:标题较短,对速度影响不大。而得到的短语比上述组合词组更为合理。 (2)应保留文章关键词的共现关系。一个关键词集中的部分关键词是相互联系(出现在同一篇文章中的),可能形成一个关系网络。对向量而言,最好的向量是各维正交的。然而相互关联(相互印证)的一组关键词在另一篇文章中共现,可以很好地说明两种的相似性。即应该修改以前各维无关的相似度计算,改为考虑关键词间相互影响关系的算法。以前考虑过“关联矩阵”的方法,即根据语料中关键词之间的关联程度,形成一个关联矩阵。一个关键词的出现,蕴含着于此关联的其它关键词的出现。这是一个值得继续研究的方案! 但原方法的关联矩阵是将一个词的出现频率部分传递给与它有关联的其它词汇,出现多个词汇时,它们对共有关联词的频率传递是线性叠加的。然而一篇文章中同时出现多个关联词汇时,对其它关联词汇的频率传递是否应该考虑非线性传递呢?来源与不同文章的不同关联关系,对共同关联词的频率传递又该如何考虑呢? (3)标题特征词之间的包含关系蕴含着权重。A包括B,则A的语义根据准确,同样包含A的文章,相似度应该更大。词汇之间的包含关系可以通过特征词集后期比较发现。前期关键

文档评论(0)

youshen + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档