文本文献自动分类综述概要1.ppt

下载文档 降价啦

4
0
约6.7千字
约 46页
2017-07-06 发布于湖北
举报
版权申诉
保障服务

文本文献自动分类综述概要1.ppt

1、本文档共46页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

文本文献自动分类综述概要1

基于投票的方法 Bagging方法训练R个分类器fi，分类器之间其他相同就是参数不同。其中fi是通过从训练集合中(N篇文档)随机取(取后放回)N次文档构成的训练集合训练得到的。对于新文档d，用这R个分类器去分类，得到的最多的那个类别作为d的最终类别 Boosting方法类似Bagging方法，但是训练是串行进行的，第k个分类器训练时关注对前k-1分类器中错分的文档，即不是随机取，而是加大取这些文档的概率(加大对错分样本的学习能力) AdaBoost 文本分类的评估指标分类方法的评估邻接表每个类 Precision=a/(a+b), Recall=a/(a+c), fallout=b/(b+d)=false alarm rate, accuracy=(a+d)/(a+b+c+d), error=(b+c)/(a+b+c+d)=1-accuracy, miss rate=1-recall F=(β2+1)p.r/(β2p+r) Break Even Point, BEP, p=r的点如果多类排序输出，采用interpolated 11 point average precision 所有类：宏平均:对每个类求值，然后平均微平均:将所有文档一块儿计算，求值真正对的错误标YES a b 标NO c d 其他分类方法 Regression based on Least Squares Fit (1991) Nearest Neighbor Classification (1992) * Bayesian Probabilistic Models (1992) * Symbolic Rule Induction (1994) Decision Tree (1994) * Neural Networks (1995) Rocchio approach (traditional IR, 1996) * Support Vector Machines (1997) Boosting or Bagging (1997)* Hierarchical Language Modeling (1998) First-Order-Logic Rule Induction (1999) Maximum Entropy (1999) Hidden Markov Models (1999) Error-Correcting Output Coding (1999) ... Demo Show 文本分类的一些新方向传统文本分类研究方向特征选择权重计算不平衡数据集分类训练集样本很少(半监督学习) Active-Learning：加入人工的因素基本上文本分类作为检验新的机器学习方法的平台新方向短文本分类最大的问题：信息缺失 Ask Google Snippet 代价太高，仅供研究，不实用短文本分类利用Topic Model补充缺失信息语义信息补充现今的文本分类算法未考虑词的语义信息英文中：短语拆开成了单词 Machine Learning, Statistical Learning, and Data Mining are related subjects Machine Learning ≠ Machine + Learning Concepts Terms 开方测试问题论文中的指标都是在封闭训练测试上计算 Web上的文本错综复杂，不可能有统一的分类体系在训练集合A上的模型，自适应的转移到集合B中的文本分布？ Transfer Learning 主要问题在于成本较高其他一些问题多类别数目分类问题：比如类别数有成百上千的情况 SVM？训练时一般采用One V.S. One方法如果一定要选，Na?ve Bayes方法更鲁棒分类速度：实用的角度不可能采用paper中的方法一般在速度和效果中寻求Tradeoff 参考文献文献及其他资源 Papers K. Aas and L. Eikvil. Text categorisation: A survey. Technical report, Norwegian Computing Center, June 1999 /aas99text.html Xiaomeng Su， “Text categorization”，Lesson Presentation Yiming Yang and Xin Liu. 1999. A re-examination of text categorization methods. 22ndAnnual International SIGIR A Survey on Text Categorizat