文本文献自动分类综述概要1.ppt

  1. 1、本文档共46页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文本文献自动分类综述概要1

基于投票的方法 Bagging方法 训练R个分类器fi,分类器之间其他相同就是参数不同。其中fi是通过从训练集合中(N篇文档)随机取(取后放回)N次文档构成的训练集合训练得到的。 对于新文档d,用这R个分类器去分类,得到的最多的那个类别作为d的最终类别 Boosting方法 类似Bagging方法,但是训练是串行进行的,第k个分类器训练时关注对前k-1分类器中错分的文档,即不是随机取,而是加大取这些文档的概率(加大对错分样本的学习能力) AdaBoost 文本分类的评估指标 分类方法的评估 邻接表 每个类 Precision=a/(a+b), Recall=a/(a+c), fallout=b/(b+d)=false alarm rate, accuracy=(a+d)/(a+b+c+d), error=(b+c)/(a+b+c+d)=1-accuracy, miss rate=1-recall F=(β2+1)p.r/(β2p+r) Break Even Point, BEP, p=r的点 如果多类排序输出,采用interpolated 11 point average precision 所有类: 宏平均:对每个类求值,然后平均 微平均:将所有文档一块儿计算,求值 真正对的 错误 标YES a b 标NO c d 其他分类方法 Regression based on Least Squares Fit (1991) Nearest Neighbor Classification (1992) * Bayesian Probabilistic Models (1992) * Symbolic Rule Induction (1994) Decision Tree (1994) * Neural Networks (1995) Rocchio approach (traditional IR, 1996) * Support Vector Machines (1997) Boosting or Bagging (1997)* Hierarchical Language Modeling (1998) First-Order-Logic Rule Induction (1999) Maximum Entropy (1999) Hidden Markov Models (1999) Error-Correcting Output Coding (1999) ... Demo Show 文本分类的一些新方向 传统文本分类研究方向 特征选择 权重计算 不平衡数据集分类 训练集样本很少(半监督学习) Active-Learning:加入人工的因素 基本上文本分类作为检验新的机器学习方法的平台 新方向 短文本分类 最大的问题:信息缺失 Ask Google Snippet 代价太高,仅供研究,不实用 短文本分类 利用Topic Model补充缺失信息 语义信息补充 现今的文本分类算法未考虑词的语义信息 英文中:短语拆开成了单词 Machine Learning, Statistical Learning, and Data Mining are related subjects Machine Learning ≠ Machine + Learning Concepts Terms 开方测试问题 论文中的指标都是在封闭训练测试上计算 Web上的文本错综复杂,不可能有统一的分类体系 在训练集合A上的模型,自适应的转移到集合B中的文本分布? Transfer Learning 主要问题在于成本较高 其他一些问题 多类别数目分类问题: 比如类别数有成百上千的情况 SVM?训练时一般采用One V.S. One方法 如果一定要选,Na?ve Bayes方法更鲁棒 分类速度: 实用的角度不可能采用paper中的方法 一般在速度和效果中寻求Tradeoff 参考文献 文献及其他资源 Papers K. Aas and L. Eikvil. Text categorisation: A survey. Technical report, Norwegian Computing Center, June 1999 /aas99text.html Xiaomeng Su, “Text categorization”,Lesson Presentation Yiming Yang and Xin Liu. 1999. A re-examination of text categorization methods. 22ndAnnual International SIGIR A Survey on Text Categorizat

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档