- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于错误预测的文本分类方法*
陈毅恒 秦兵 刘挺 林建国 李生
哈尔滨工业大学信息检索研究室 哈尔滨 150001
Email: cyh@ir.hit.edu.cn
摘要:本文提出一种基于潜在语义索引(LSI )和互信息(MI )相融合的文本分类模型。使用LSI 进行特征表示
和特征降维在提高分类的性能上有优异的表现,但LSI 本身在处理速度和耗用空间上存在缺陷。本文先对文本使
用向量空间模型(VSM )并利用MI 方法进行特征提取,利用 SVM 的后验概率机制,对分类的结果进行错误预
测。对错误可能性高的部分文本利用LSI 进行第二次分类。算法融合 MI 和 LSI 的优点,降低了使用LSI 造成的
效率损失,提高分类精度和性能。
关键字:文本分类,潜在语义索引, 互信息, 错误预测
Text Classification Based on Error Predict
Chen Yiheng Qin Bing Liu Ting Lin Jianguo Li Sheng
Information Retrieval Lab, Harbin Institute of Technology, Harbin 150001, China
Email: cyh@ir.hit.edu.cn
Abstract: This paper presents a segment-based method to solve the problem of length in the parsing. Firstly, a sentence is
divided into different segments, each of which is assigned a label to indicate its syntactic type. Secondly, the segments are
parsed separately. Finally, all the segments are linked through the dependency relations and the parsing of the whole
sentence is completed. Experiments show that the identification of segments decreases the complexity of parsing and
improves the accuracy of Chinese dependency parsing.
Keywords: dependency parsing, punctuation, segment, dependency relation
1 引言
随着网络兴起和大量文本资源的出现,自动分类方法成为研究热点。文本分类是一个有指
导的学习过程,在标注好的训练文本集合,找到文本特征和文本类别之间的关系模型,然后利用
学习到的模型对未知类型的文本进行类别预测。支持向量机、朴素贝叶斯、K近邻等方法都在自
动分类中取得很好的效果。中文文本分类通常以词条作为最小独立语义单元组成特征空间。中文
常用词汇达几十万条,对于特征空间来说这个数字过于庞大。分类最大的困难就是特征空间维数
过高而导致文档的特征向量稀疏。对特征空间进行有效降维,在不影响分类的精度下提高分类的
效率成为评价分类系统的重要指标。互信息、信息增益、文档词频、潜在语义索引[1]和Odds Ratio[2]
都是有效的降维方法。而王强等人的工作证明LSI的方法有更好的效果,但LSI 良好的效果是建立
在时间的消耗上,对大规模语料处理存在困难。本文提出了一种把MI和LSI相融合的方法来优化
*
基金资助项目:腾讯分类聚类基金项目
SVM分类器,该方法不仅在准确率上较LSI有所提高,效率也上有明显改善。
2 相关工作
2.1 文本表示
将文档表示成计算
您可能关注的文档
- 护士职业安全的危害因素及防护措施.ppt
- 基础护理学--环境.ppt
- 基础护理学--患者的清洁卫生.ppt
- 基础护理学--静脉输液与输血课件.pdf
- 基础护理学--舒适与安全.ppt
- 基础护理学--医疗护理文件.ppt
- 手术室护士的职业危害和防范.ppt
- 4T65-E--7速自动变速器维修手册.pdf
- 爱车课堂之车辆保养知识.ppt
- 北京现代瑞纳竞品话术应对VS起亚K2.ppt
- 2025-2026学年译林版(三起)小学英语五年级上册教学计划及进度表.docx
- 2025-2026学年重大版小学英语六年级上册教学计划及进度表.docx
- 2025-2026学年外研版(三起)小学英语六年级上册教学计划及进度表.docx
- 2025年五级变配电运行值班员(变电站运行)职业技能鉴定《理论知识》真题(附专业解析).pdf
- 2025-2026学年译林版(三起)小学英语六年级上册教学计划及进度表.docx
- 2025-2026学年人教精通版小学英语六年级上册教学计划及进度表.docx
- 2025-2026学年人教精通版小学英语五年级上册教学计划及进度表.docx
- 2025年四级仪器仪表制造工(仪表安装)职业技能鉴定《理论知识》考试真题(附解析).pdf
- 2025-2026学年教科版(广州)小学英语五年级上册教学计划及进度表.docx
- 2025-2026学年人教PEP版小学英语六年级上册教学计划及进度表.docx
文档评论(0)