基于关键短语与文本分类研究.docVIP

下载本文档

4
0
约 9页
2017-09-01 发布于安徽
举报
版权申诉

基于关键短语与文本分类研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于关键短语的文本分类研究刘华 (暨南大学华文学院，广州 510610) 摘要: 关键词: ;关键短语;文本表示;特征项 Text Categorization Based on Key Phrases Liuhua (College of Chinese Language and Culture, Jinan University, Guangzhou, 510610) Abstract: Improvement in text categorization lies not on algorithm of classing model, but on the fundamental element: integrated and independent feature of text representation. Key Phrases are phrase that have strong text representation function, can characterize text content such as subject and kind. With steady structure, integrated meaning and statistical significance, Key Phrases can overcome the limitation of VSM (Vector Space Model) and NB (Naive-Bayes), are fit for feature of text representation, and are propitious to improving effect of text categorization. From linguistics, cognitive psychology and computational linguistics, we searched the base of theory of Key Phrases’ advantage, defined Key Phrases, and acquired them by extracting key words labeled by specialist in web pages. The experiment proved that Key Phrases are fitter for feature of text representation than words: MicroF1 increase of 3.1 percent of parent- category, MicroF1 increase of 15 percent of sub- category. Key words: text categorization; Key Phrases; text representation; feature 文本分类的理论研究比较成熟，而且也出现了一些初步的应用系统。文本表示相对于字、词和N元组，短语结构稳定完整，更有利于表达文本内容特征。从语言学、认知心理学和言语习得、计算语言学等方面寻求的理据实验证明基于统计的分类算法主要包括以下几种分类模型：相似度模型（Rocchio、K-近邻）、概率模型（贝叶斯）、线性模型（LLSF、SVM）、非线性模型（决策树、神经网络）、组合模型。对于分类算法，国内外很多研究者进行了客观评测（Yang，1999；Joachims，1998；He，2000；Tsay，2000；庞剑锋，2001；王灏，2003；李保利，2003；周雪忠，2003）。在周雪忠的实验中，统计数据表明词频特征表示的TFIDF/Rocchio的分类准确率在测试集相对充分时高于SVM，在特征表示和分类器相结合的实验中，TFIDF/Rocchio（W）取得了最好的效果，最后他得出结论，采用相对高维的特征表示（如词）和简单的分类方法（如TFIDF/Rocchio）即可达到理想的分类性能要求。另外，Yiming Yang和Xin Liu（1999）对五种文本分类方法进行了受限的统计显著性测试研究：支持向量机（SVM）、k-近邻（KNN），神经网络（NNet）、线性最小平方拟合（LLSF）映射和朴素贝叶斯（NB）。结果表明当训练集平均，每个类中的正例数目较少时（少于10），SVM、KNN和LLSF比NNet、NB显然要好，而当处理大分类（超过300个正例样本）时所有的分类方法性能相当。在基于统计的文本分类方法中，向量空间模型基于这样一个关键假设：文章中词条出现的顺序是无关紧要的，他们对于文档的类别所起的作用是相互独立的。但实际上，句子中词条之间远不是独