基于错误预测的文本分类方法.pdfVIP

下载本文档

10
0
约1.65万字
约 6页
2017-09-22 发布于福建
举报
版权申诉

基于错误预测的文本分类方法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于错误预测的文本分类方法* 陈毅恒秦兵刘挺林建国李生哈尔滨工业大学信息检索研究室哈尔滨 150001 Email: cyh@ir.hit.edu.cn 摘要：本文提出一种基于潜在语义索引（LSI ）和互信息（MI ）相融合的文本分类模型。使用LSI 进行特征表示和特征降维在提高分类的性能上有优异的表现，但LSI 本身在处理速度和耗用空间上存在缺陷。本文先对文本使用向量空间模型（VSM ）并利用MI 方法进行特征提取，利用 SVM 的后验概率机制，对分类的结果进行错误预测。对错误可能性高的部分文本利用LSI 进行第二次分类。算法融合 MI 和 LSI 的优点，降低了使用LSI 造成的效率损失，提高分类精度和性能。关键字：文本分类，潜在语义索引，互信息，错误预测 Text Classification Based on Error Predict Chen Yiheng Qin Bing Liu Ting Lin Jianguo Li Sheng Information Retrieval Lab, Harbin Institute of Technology, Harbin 150001, China Email: cyh@ir.hit.edu.cn Abstract: This paper presents a segment-based method to solve the problem of length in the parsing. Firstly, a sentence is divided into different segments, each of which is assigned a label to indicate its syntactic type. Secondly, the segments are parsed separately. Finally, all the segments are linked through the dependency relations and the parsing of the whole sentence is completed. Experiments show that the identification of segments decreases the complexity of parsing and improves the accuracy of Chinese dependency parsing. Keywords: dependency parsing, punctuation, segment, dependency relation 1 引言随着网络兴起和大量文本资源的出现，自动分类方法成为研究热点。文本分类是一个有指导的学习过程，在标注好的训练文本集合，找到文本特征和文本类别之间的关系模型，然后利用学习到的模型对未知类型的文本进行类别预测。支持向量机、朴素贝叶斯、K近邻等方法都在自动分类中取得很好的效果。中文文本分类通常以词条作为最小独立语义单元组成特征空间。中文常用词汇达几十万条，对于特征空间来说这个数字过于庞大。分类最大的困难就是特征空间维数过高而导致文档的特征向量稀疏。对特征空间进行有效降维，在不影响分类的精度下提高分类的效率成为评价分类系统的重要指标。互信息、信息增益、文档词频、潜在语义索引[1]和Odds Ratio[2] 都是有效的降维方法。而王强等人的工作证明LSI的方法有更好的效果，但LSI 良好的效果是建立在时间的消耗上，对大规模语料处理存在困难。本文提出了一种把MI和LSI相融合的方法来优化 * 基金资助项目：腾讯分类聚类基金项目 SVM分类器，该方法不仅在准确率上较LSI有所提高，效率也上有明显改善。 2 相关工作 2.1 文本表示将文档表示成计算