2004Tree..docVIP

下载本文档

1
0
约9.47千字
约 9页
2016-12-31 发布于重庆
举报
版权申诉

2004Tree..doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于后缀树模型的文本实时分类系统的研究和实现(? 张吉1, 郭莉1, 谭建龙1 1(中科院计算所,北京市 100084) (zhangji@) 摘要: 本文在面向网络内容分析的前提下，提出了一种基于后缀树的文本向量空间模型(VSM)，并在此模型之上实现了文本分类系统。对比基于词的VSM，该模型利用后缀树的快速匹配，实时获得文本的向量表示，不需要对文本进行分词、特征抽取等复杂计算。同时，该模型能够保证训练集中文本的更改，对分类结果产生实时影响。实验结果和算法分析表明，我们系统的文本预处理的时间复杂度为O(N)，远远优于分词系统的预处理时间复杂度。此外，由于不需要分词和特征抽取，分类过程与具体语种无关，所以是一种独立语种的分类方法。关键词: 实时文本分类；向量空间模型；后缀树中图法分类号:TP391　 Resarch and Implementation of On-line Text Categorization System Based on Suffix Tree CHANG Ji1,GUO Li 1, TAN Jian-Long1 1(Institute of Computing Technology, Chinese Academy of Sciences, BeiJing, 100084) (zhangji@) Abstract: We propose a text vector space model(VSM) based on suffix tree and implement a text categorizing system on the model. The model can perform fast matching by the support of suffix tree, obtain the vector presentation of text and avoid the complex computation such as word segmentation or feature extraction of the text. In addition, this model can guarantee that the alteration of the training set can affect the result of classification in real time. Experiment and analysis of the algorithm show that, the time complexity of text preprocessing in our system is O(N), which is much better than that of word segmentation method. Besides, the avoidance of word segmentation and feature extraction shows that the categorizing process is irrelevant to do with the concrete language and is a language independent method. Key words: Online Text Categorization; Vector Space Model; suffix tree 引言随着信息技术的发展，特别是Internet应用的普及，人们已经从信息缺乏的时代过渡到信息极为丰富的时代。如何从大量信息中迅速有效地提取出所需信息也就成为一项重要的研究课题。由于分类可以在较大程度上解决目前网络信息杂乱的现象，方便用户准确定位所需信息，因此分类尤其是文本分类的研究日益重要[1]。文本分类是指在给定分类体系下，根据文本的内容自动确定文本类别的过程。通常来说，文本分类是面向自然语言处理的。在这种分类中分类的正确性远比分类的速度更重要。但是在网络内容分析中，我们认为分类的速度和分类的正确性都必须充分考虑。在实时内容分析中，目前技术尚不足以直接高效地利用大量语义特征，但是我们至少可以综合分析某些字结构在文本中出现的量化统计特征。因此我们在面向网络内容分析前提下，提出了基于后缀树模型的实时分类系统，并做了部分测试工作。本文主要探讨了新的文本表示模型和这种模型下的一个分类系统的实现，第一部分为引言，介绍了实时文本分类系统的应用需求和研究现状；第二部分探讨了基于后缀树的文本分类方法，着重介绍了文本表示；第三部分给出了我们的实时文本分类系统的实现；第四部分是该系统的实验结果和相关分析；第五部分进行总结，并