新闻分类数据挖掘题材.pptVIP

  • 28
  • 0
  • 约 8页
  • 2017-02-12 发布于湖北
  • 举报
新闻分类 数据挖掘 高 鑫:2120505009 王思卿:2120505004 张瑞凯:2120505023 新闻分类 —— 训练样本 训练文本经分词器形成词组的集合 提取文本的关键词 分别计算每个关键词属于某个类型的概率 分词器 正向最大匹配法算法: 准备词组字典D MAXlEN为词组字典中词组最长的长度 Loop: 选择还未分词的文本的前MAXLEN个字符TEST_STR TEST_STR如果在字典D中,TEST_STR为词组 否则,去掉TEST_STR的最后一个字符,重复(4)步奏,直到判断为词组或只剩下一个字符 Until: 文本分词完毕 数据挖掘十大算法 数据挖掘十 数据挖掘十 数据挖掘十 数据挖掘十 数据挖掘十 提取关键词 关键词提取一般用同义词林的方法 统计文本的高频词、热词,去掉常用词 将文本中的词组用高频词的同义词替换,形成结构化语言 计算文本每段语句的关键度 K = f ( t1, t2, …, tn) ,ti 为替换同义词的量化值 关键度高的语句为关键语句,内部的高频词组为关键词 KW = name, classify 计算关键词属于某个分类概率 由于关键词可能属于多个分类,但属于某个分类有一定的概率 struct keywords{ char word[20]; long int count[CLASS_NO + 1];//coun

文档评论(0)

1亿VIP精品文档

相关文档