- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于时间序列的文本分类.ppt
基于时间序列的文本分类 陈伟程 简介 基于时间序列的文本分类 传统文本分类方法 时间序列分类方法 结合方法尝试 文本分类一般过程 预处理 将文档集表示成易于计算机处理的形式 特征表示与选择、降维 根据适宜的权重计算方法表示文档中各项的重要性 学习建模 构建分类器 文本分类预处理 去标点、多余空格、数字(可选) 大小写统一 去停用词(stop words) 没有实际含义的词,比如and,you,have等等 统一词根 PorterStemmer 分词 英文?中文 特征表示 向量空间模型 以词项为特征组成高维特征向量 TF/IDF得到权值 TF/IDF TF(Term Frequency) 表示词项频率 IDF(Inverse Document Frequency) 逆文档频率 TF*IDF值 降维方法 特征选择 文档频率 信息增益 互信息 文本证据权 PCA 词项聚类 建模过程 分类器选择 朴素贝叶斯 K近邻 SVM--Liblinear 分类任务 数据集 Reuters21578-Apte-90Cat,选取10类(训练集、测试集) 特征 TF/IDF、向量空间模型 分类器 Liblinear 传统方法效果 88.5% 基于时间序列的文本分类 传统方法缺点 利用了词义信息,但忽略了单词的位置信息 时间序列 不同时间上的各个数值,按时间先后顺序排列而形成的序列 基于时间序列的文本分类 DTW——动态时间归整 基于动态规划思想,解决了特征长短不一的模板匹配问题 计算样本之间的相似度 KNN方法确定类别 思考一 统一特征维数 十维、三十维、五十维。。。。。。 使用各种分类器 Libsvm、Liblinear、KNN。。。。。。 思考二 语料不对?微博?短文本? 选取新闻标题为语料 CDMC2010、CDMC2011 思考三 特征不对? 词义信息丢失 全局TF/IDF 不同文本相同词项权值相同 时间序列结合传统方法 时间序列特征加在传统特征之后 思考四 传统特征维数太高?(一万多维VS几十维) PCA降维之后再加时间特征 思考五 时间序列特征有什么含义? 代表不同位置词的重要性曲线 传统特征按位置分段加权 在传统特征上权值按位置进行加权 传统特征后加各段时间序列均值 思考六 时间序列能不能补充? 思路:传统方法置信度低时用时间序列的结果 问题总结 时间序列的有效性 文本的时间性 特征表示 收获 不断思考、不断实践 想法来源于实践 * * 能否利用单词位置信息来提高分类效果? We are datamining group 1.1 1.5 2 0.8 1.1 1.5 2 0.8 Xiamen university 3 2.5 3 2.5 文档一 文档二 疑问:不同文档特征数不一样怎么办??? 实验效果:十类52% 最佳:六十段 libsvm 60% 83% VS 51% 82% 14% CDMC2011 99% 46% CDMC2010 传统 时间 语料 准确率:48% You are… 1 2… Are you… 1.5 2.5… You are… 1 2… Are you… 2 1… 0.871 TF-IDF0.5 + 100维时间序列 liblinear 0.872 TF-IDF0.5 + 50维时间序列 liblinear 准确率 时间序列加在末尾 分类器 准确率 方法 分类器 0.8399 PCA降维至4020 +100维 liblinear 0.8389 PCA降维至4020 +80维 liblinear 0.8389 PCA降维至4020 +50维 liblinear 0.8357 PCA降维至4020 +30维 liblinear 0.8382 PCA降维至4020 +20维 liblinear 0.8356 PCA降维至4020 +10维 liblinear 0.7953 PCA降维至4020 liblinear 0.8837 TF/IDF1.0 权值0.8,0.9,1 0.8845 TF/IDF1.0 权值0.84,0.96,1 0.8852 TF/IDF1.0 权值0.9,0.95,1 0.8859 TF/IDF1.0 权值1,1,1 0.8845 TF/IDF1.0 权值1.19,1.04,1 0.8845 TF/IDF1.0 权值1.1,1,1 0.8845 TF/IDF1.0 权值1.1,1.05,1 0.8837 TF/IDF1.0 权值1.2,
文档评论(0)