基于自然标注信息和隐含主题模型的无监督文本特征抽取-计算语言学.PDF

基于自然标注信息和隐含主题模型的无监督文本特征抽取-计算语言学.PDF

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于自然标注信息和隐含主题模型的无监督文本特征抽取1 1,2 1 1 饶高琦 ,于东 ,荀恩东 ,1. 2. 100083 (北京语言大学 汉语国际教育技术研发中心; 中国语言政策与标准研究所,北京, ) 摘要:术语和惯用短语可以体现文本特征。无监督的抽取特征词语对诸多自然语言处理工作起到支持作用。 本文提出了 “聚类验证”过程,使用主题模型对文本中的字符进行聚类,并采用自然标注信息对提取出的- 字符串进行验证和过滤,从而实现了从未分词领域语料中无监督获得词语表的方法。通过优化和过滤,我 们可以进一步获得了富含有术语信息和特征短语的高置信度特征词表。在对计算机科学等六类不同领域语 料的实验中,本方法抽取的特征词表具有较好的文体区分度和领域区分度。 关键词:自然标注信息;自然语块;隐含主题模型;领域特征;文体特征 UnsupervisedTextFeatureExtractionbasedonNaturalAnnotationand LatentTopicModel 1,2 1 1 RAOGaoqi ,YUDong ,XUNEndong (BeijingLanguageandCultureUniversity, 1.InternationalRDCenterforChineseEducation;2.Institutefor ChineseLanguageandPoliciesandStandards,100083,China) Abstract:Textfeaturesareoftenshownbyitstermsandphrases.Theirunsupervisedextractioncansupport variousnaturallanguageprocessing.Weproposed“Cluster-Verification”methodtogainthelexiconfromraw corpus,bycombininglatenttopicmodelandnaturalannotation.Topicmodelingwasusedtoclusterstrings,while wefilteredandoptimizeditsresultbynaturalannotationsinrawcorpus.Highaccuracywasfoundinthelexicon wegained,aswellasgoodperformanceondescribingdomainbelongingandwritingstyleofthetexts. Experimentson6kindsofdomaincorporashoweditspromisingeffectonclassifyingtheirdomainbelongingand writingstyle. Keywords:naturalannotation;naturalchunk;latenttopicmodel;domainfeature;stylisticfeatures 1引言 文本特征可以从两方面得到体现:领域性和文体性。前者通过术语的形式得到体现,而 后者往往以惯用短语的方式出现。本文统称这两者为特征词语。对于自然语言处理而言,以 词和短语的形式体现出的文本的特征,可以对分词、文本分类和自动文摘等诸多自然语言处 理工作提供支持。 当前文本特征刻画的思想多来源于BOW (BagofWords)模型或其变种,如带有领域 [1] [2] 词典的特征袋BOF模型 ,使用加入命名实体描写的FLIC ,带有短语与n-gram描写的 [3] [4] STC 和利用词间关系进行描写 等。它们大多在自建或通用测试集上达到了80-95%的精确 率

文档评论(0)

fengruiling + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档