中文时间关键词识别研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文时间关键词识别研究.pdf

第 34卷第4期 计 算 机 应 用 研 究 Vo1.34No.4 2017年4月 ApplicationResearchofComputers Apr.2017 中文时间关键词识别研究米 左亚尧 ,龙耀发 ,李杰骏 (广东工业大学计算机学院,广州510006) 摘 要:时态信息广泛应用在 自然语言处理、信息检索等领域,而时间关键词识别更是时态信息应用的关键,其 直接影响到时态信息的使用。时间信息在文本或句中形式多样性、位置随意性以及边界不确定性等特点成为时 间关键词识别任务 中的难点。为了解决中文时间关键词的识别问题 ,通过分析文本语句结构并结合语法结构树 提出短语划分方法,将文本转换成短语集从而确定短语边界;在此基础上提出短语向量化表示法,以此构建向量 空间;最后 ,引入谱聚类的聚类思想,将识别问题转换为聚类 问题。实验证明,运用该方法进行 中文时态关键词 识别具有较好的效果。 关键词 :时间关键词 ;时间关键词识别;谱聚类 中图分类号:TP391.1 文献标志码:A 文章编号:1001—3695(2017)04.0981—05 doi:10.3969/j.issn.1001—3695.2017.04.005 ExtractionofChinesetemporalkeywords ZuoYayao,LongYa0fa,LiJiejun (FacultyofComputer,GuangdongUniversityofTechnology,Guangzhou510006,China) Abstract:Temporalinformationwasusedwidelyinthefieldofnaturallanguageprocessingandinformationretrieva1.Theuse oftemporalinformationwasaffectedbytheextractiontaskoftemporalkeywordsdirectly.Thereweremanycharacteristicsfor temporalinformationappearedindocuments,suchdiversityofofrm,arbitrarylocation,undefinedboundary,etc.Inorderto solvetheextractionproblem ofChinesetemporalkeywords,thispaperproposedamethodofphrasepartitiontoconvert docu- mentsintoasetofphrase.Itdefineedtheboundary ofevery phraseinsentences.Onthisbasis,itputforwardthemethodof phrasalvectorizationtoconstructthevectorspace.Lastly,itsolvedtheproblem ofidentifytemporalkeywordsthroughspectral clustering.Experimentshowsthemethodachievesavery goodeffect. Keywords:temporal keywords;extractionoftemporalkeywords;spectral clustering 问题中自动抽取时态属性对时态短语进行抽取。文献[12]利 0 引言 用线性链条件随机场(LC—CRF)构建分类器完成识别工作。虽

文档评论(0)

170****0532 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8015033021000003

1亿VIP精品文档

相关文档