dm 5 文本分类 qba 21-08-2006dm 5 文本分类 qbai 21-08-2006dm 5 文本分类 qbai 21-08-2006dm 5 文本分类 qbai 21-08-2006.pptVIP

  • 5
  • 0
  • 约1.53万字
  • 约 85页
  • 2017-03-18 发布于贵州
  • 举报

dm 5 文本分类 qba 21-08-2006dm 5 文本分类 qbai 21-08-2006dm 5 文本分类 qbai 21-08-2006dm 5 文本分类 qbai 21-08-2006.ppt

Web数据挖掘: 文本分类与网页分类 Dr. Qingyuan Bai School of Computer Science Faculty of Mathematics and Computer Science, Fuzhou University Email: baiqy@ 文本摘要的出现 自动文本摘要在我们身边随处可见 新闻标题 论文摘要 小说的故事梗概…… 自动文本摘要产生的必然性 万维网上文本数据的迅速增长,人们很难浏览关于某一主题的所有网页,因此必须借助于自动工具来帮助人们获取信息,自动工具包括搜索引擎、文本分类、文本摘要等。 表面级方法一: Luhn算法 Luhn算法的核心思想是为文章中的每一个句子赋予一个意义值,那些具有最大意义值的句子将会被抽取出来作为摘要,其中句子的意义值是通过句中意义词的个数计算得到的。 确定“意义词集”:意义词应该是文章中的“中”频词集。 //高频词通常为停用词,而低频词又因出现次数太少,没有对表达文章意义有太大贡献。 计算句子权重: 找出句中满足如下条件的区间,即区间两端为意义词,区间中的相邻意义词之间的距离不超过n,n是一个经验值;然后用区间中意义词个数的平方除以区间的长度,所得的商即为句子的意义值。 表面级方法一: Luhn算法 图示句子的意义值为 4^2 / 7=2.3 。 计算出所有句子意义值后,可依据意义值对整个

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档