文本分类与文本挖掘.ppt

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文本分类与文本挖掘

文本分类与挖掘技术 文本分类和文本挖掘 按照地区分类 朴素贝叶斯算法分类 朴素贝叶斯算法分类 朴素贝叶斯算法分类 朴素贝叶斯算法分类 朴素贝叶斯算法分类 朴素贝叶斯算法分类 按照职位分类 按照职位分类 按照职位分类 按照职位分类 通用即经典文本分类 通用即经典文本分类 通用即经典文本分类 特征空间维数表示要在整个训练集中提取多少个词用来分类。这些词对于分类最重要。 衡量每个词重要的指标有六种方式,分别是互信息量,信息增益,卡方统计,文本特征权重,右半信息增益,本质就是把词频,文档频带入6个公式计算所得,用以衡量词语重要性。 训练后生成模式,就是各类文档的统计特征 抽取的特征集(按权重排序) 类别表示 训练模式 SVM算法 对于N类问题构造N个分类器,第I个SVM训练器用第I类做正训练集,其他所有各类负的训练集。 最后输出为两类分类器最大的那一类。 分类过程 分类结果 文本挖掘 待处理文本 文本内容 地区编码表 101 京津冀 102 东三省 103 福建江西 104 港澳台 105 广西广东云南 106 湖北湖南 107 江苏浙江 108 宁夏青海新疆 109 山东河南安徽 110 陕西内蒙 111 陕西甘肃 112 上海 113 云南贵州西藏 114 重庆四川 残疾类别表 11 肢体残疾 12 视力残疾 13 语言残疾 14 智力残疾 15 精神残疾 16 听力残疾 17 综合残疾 视力残疾原因表 21 白内障 22 屈光不正 23 弱视 24 视网膜疾病 25 色素膜病变 26 角膜病 27 青光眼 28 高度近视 肢体残疾原因表 41 脑血管疾病 42 骨关节病 43 外伤 听力残疾原因表 31 老年性耳聋 32 中耳炎 33 其他 34 血管性疾病 35 感染性疾病 36 中毒 37 外伤 38 遗传 39 神经 智力残疾原因表 71 脑疾病 72 遗传 73 宫内感染 74 近亲婚配 75 缺碘 76 营养不良 精神残疾原因表 51 精神分裂症 52 痴呆 53 癫痫 54 抑郁 处理文档输出为数据库数据集 然后用Apriori算法挖掘关联规则 张师林 张师林 二、 一、 文本分类:传统或者经典的分本分类,文本中的任何一个词都可能对分类起到作用,用数据评判标准去衡量每个词的分类作用,保留有重要作用的词。特殊的文本分类,对分类起到作用的是某种特殊的词,比如按照地域分类,整篇文档中只有地名对分类起到作用。 文本挖掘:在大量的文本中,寻找频繁出现的词的规律。现在的想法是,把每个文本感兴趣的词抽取出来,插入数据库。然后在数据库中Apriori 算法关联规则挖掘,找出满足支持度的规则集合。 A 对于文本文件,首先要分词,可供选用的分词手段如海量公司的分词数据包,计算所的分词数据包,Lucence 分词数据包。 B 在本项目中使用了计算所的分词包进行二次开发,然后根据词性找出地名,每个文档生成一个地名词集合或称文本向量。 C 先把预先已经分好类的地名集合作为训练集,但是不需要训练过程,因为各个类别只有一个文件。 A 在文本中抽取职位,作为每个文本的文本向量,因为只有职位对于分类有作用。这是算法的第一步。 B 但是毕竟职位有无数种,如果某种职位未登录,比如一个新的工种,绞丝工,这个名词抽取不了,则进入第二步按普通文本处理来分类。 C 在第二步普通文本分类中,保留重要的分类词集和非常无用的词集,对于每个文本新出现的词,如果是不重要的词去除,重要的保留,新词重新计算,并自学习,最后贝叶斯文类。 A 分词之后,必须先训练分本集,训练的过程就是在大量的已知类别的文档中,对于每类文档用一些文档向量去抽象和表达一类文档,也就是对一类多个文档进行总结的过程。 B 训练过程完成之后,生成一个训练模型,该模型用一个文本文件表示,表达了海量训练文本集的统计规律,用以以后文类。 C 然后使用贝叶斯,KNN,或者SVM三种经典算法把给定的一个文档划分到给定类别中去。 一、关键内容抽取 二、关联规则挖掘 在各个地区残疾人情况的文本中,地名,残疾类别,年份,残疾原因等词汇对于挖掘有用信息是非常有价值的,需要抽取并且放入数据库中。 把文本规范化之后,在数据库中就可以使用关联规则的挖掘著名算法Apriori算法挖掘满足给定支持度和可信度的规则。 张师林

文档评论(0)

153****9595 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档