分类及预测.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分类及预测

数据挖掘与决策支持 教师:徐硕 电话8006 Email: xush@ OR pzczxs@ 课程网址: 13/dmwiki/index.php?id=course:datamining15 课程主要内容 绪论(Introduction) 关联规则及相似项(Association Rule Similar Items) 分类和预测(Classification Prediction) 序列标注(Sequence Labeling) 聚类分析(Clustering) 主题模型(Topic Model) 调查问卷分析方法(Questionnaire Analysis) 第四章:文本分类及预测 引言 文档表示:向量空间模型 特征选择 潜语义索引(LSI) 自动分类方法 朴素贝叶斯分类器 kNN分类器 分类器性能评价方法 本章小结 分类的定义:以文本分类为例 定义:给定分类体系,将数据(文本)分到某个或几个类别中。 分类体系:一般人工构造 有层级结构:MeSH主题分类表、中国分类法(CLC)、 国际专利分类法(IPC) 无层级结构:{政治、体育、军事}、{动词、名词、形容词、…} 分类模式: 两类问题(binary):一篇文本属于或不属于某个特定类别; 多类问题(multi-class):一篇文本属于多个类别中的某一个; 多标识问题(multi-label):一篇文本同时属于多个类别; 文本分类:应用 垃圾邮件的判定(spam or not spam) 类别 {spam, not-spam} 新闻出版按照栏目分类 类别 {政治,体育,军事,…} 词性标注 类别 {名词,动词,形容词,…} 词义排歧 类别 {词义1,词义2,…} 计算机论文的领域 类别 ACM system H: information systems H.3: information retrieval and storage … 分类方法 人工方法 结果容易理解 足球 and 联赛?体育类 费时费力 难以保证一致性和准确性(40%左右的准确率) 专家有时候凭空想象 知识工程的方法建立专家系统(80年代末期) 自动的方法(机器学习) 结果可能不易理解 快速 准确率相对高(准确率可达60%或者更高) 来源于真实文本,可信度高 典型分类过程 文本分类过程 第四章:文本分类及预测 引言 文档表示:向量空间模型 特征选择 潜语义索引(LSI) 自动分类方法 朴素贝叶斯分类器 kNN分类器 分类器性能评价方法 本章小结 文本表示 预处理 去掉html一些tag标记 (英文)停用词(stop words)去除、词根还原(stemming) (中文)分词、词性标注、短语识别、… 词频统计 TFi, j: 特征i在文档j中出现次数,词频(Term Frequency) DFi:所有文档集合中出现特征i的文档数目,文档频率(Document Frequency) 数据清洗:去掉不合适的噪声文档或文档内垃圾数据 文本表示 向量空间模型(Vector Space Model,VSM) 降维技术 特征选择(Feature Selection) 特征重构(Re-parameterisation,如LSI、LDA) 向量空间模型(VSM) 向量空间模型:权重 布尔权重 出现为1,不出现为0 TF-IDF权重 TFi, j:词项vi在文档Dj中出现的次数,也就是词频; DFi:包含词项vi的文档数量; IDFi = ,其中N表示所有文档的篇数,这就是逆文档频率; TF-IDFi,j = TFi, j ? IDFi; TFCi,j:对TF-IDFi,j进行归一化处理 LTCi,j:降低TF的作用 向量空间模型:示例 A = (a, rose, is, very, beautiful) B = (a, rose, is, a, flower, which, is, a, rose) 第四章:文本分类及预测 引言 文档表示:向量空间模型 特征选择 潜语义索引(LSI) 自动分类方法 朴素贝叶斯分类器 kNN分类器 分类器性能评价方法 本章小结 特征选择(1/5) 基于DF 词项的DF值小于某个阈值去掉(太少,没有代表性) 词项的DF值大于某个阈值也去掉(太多,没有区分度) 词项的熵 值越大,说明分布越均匀,越有可能出现在较多的类别中(区分度差) 值越小,说明分布越倾斜,词可能出现在较少的类别中(区分度好) 特征选择(2/5) 相对熵(而非交叉熵):也称为KL距离 反映了文本类别的概率分布和在出现了某个特定词汇条件下的文本类别的概率分布之间的距离 值越大,词项对文本类别分布的影响也越大。 特征选择(3/5) 信息增益(Information Gain,IG)

文档评论(0)

wujianz + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档