基于潜在语义分析lsa的新蒙古文命名实体识别的歧义消解.pdfVIP

基于潜在语义分析lsa的新蒙古文命名实体识别的歧义消解.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于潜在语义分析lsa的新蒙古文命名实体识别的歧义消解

第十一届全国机器翻译研讨会(CWMT 2015) 中国 · 合肥 2015.9.24-25 基于潜在语义分析(LSA)的新蒙古文命名实体识别的歧义消解 1 1 1,2 1 1 1 蒋玉鹏 ,侯宏旭 ,杨萍 ,杜健 , 申志鹏 ,李金廷 (1.内蒙古大学计 算机学院, 内蒙古 呼和浩特 010021 ;2.临汾职业技术学院 计算机系,山西 临汾 041000 ) 摘要:命名实体是承载文本重要信息的语言单位。命名实体识别、消歧是自然语言处理的重要研究内容。 针对新蒙古文中的命名实体与普通名词不易区分(如:巴特尔既可以指普通的英雄,也可以指具体的一个 人),且知识库匮乏、覆盖面小的问题,本文提出了基于潜在语义分析(LSA)的新蒙古文命名实体消歧的 方法。首先对新蒙古文词进行词缀切分,只对词根进行向量空间的构建,通过奇异矩阵分解得到实体之间 的潜在语义关系;通过上下文的知识来弥补知识库匮乏的问题,进而得到语义相关的实体。通过结合词性 相关度的信息和语义相关词对命名实体类别的贡献度进行加权来得到命名实体的真实类别指向。使用该方 法进行命名实体的消歧后,命名实体识别的平均F 值比未消歧之前高出了3.11%。 关键词:命名实体识别;命名实体消歧;新蒙古文;潜在语义分析(LSA) Research on Chinese-Slavic Mongolian Named Entity Recognition Disambiguation Based on Latent Semantic Analysis 1 1 1 1 1 Jiang Yupeng , Hou Hongxu , Yang Ping ,Du Jian ,Shen Zhipeng ,Li Jinting (1. Inner Mongolia University College of Computer, Hohhot, Inner Mongolia, 010021,China ; 2. Linfen Vocational and Technical College, Lin Fen, Shan Xi Province, 041000,China) Abstract: Named Entities are important meaningful units in texts. The recognition and disambiguation of Named Entities is of great significance in the field of natural language processing. It is difficult to distinguish between Named Entities and common nouns in Slavic Mongolian. For example, “ 巴特尔” which can refer to the ordinary heroes, it can also refer to a specific person. Meanwhile, The Slavic Mongolian is lack of the repository. To solve the above problem, we propose a new method which based on the Latent Semantic Analysis (LSA) to do the Named Entity disambiguation. Firstly, we do the stemming on the Slavic Mongolian words to reduce the matrix dimension. Then

文档评论(0)

suijiazhuang1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档