- 1、本文档共71页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
web中文信息取技术与命名实体识别方法的研究
摘要
随着Intemet的飞速发展,人们被包围在信息的汪洋大海之中。准确、高效地
从信息海洋中抽取有用的信息,正是信息抽取任务要解决的问题。
信息抽取是自20世纪80年代末以来,自然语言处理研究领域的热点研究问
题。美国、欧洲都制定了相应的信息抽取技术及评测计划。有关汉语的信息抽取
研究起步较晚,尚处在探索阶段。信息抽取任务的研究在近年来应对突发事故中
表现得尤为亟需。随着各种煤矿安全事故频繁发生,应对突发事故的能力己经成
为考验政府执政能力的一个重要方面。应对突发事故是一个系统工程,其中一个
重要环节就是信息的收集、整理、加工和发布。及时、客观、准确地收集信息,
快速、高效地提取有用信息,这己经成为提高突发事件应对能力的一个重要方面,
也是衡量应对突发事件能力的一个重要指标。
本文在对煤矿安全事故新闻报道特点广泛分析基础上,以同一突发事件的多
个新闻报道(即同事件多文本)为处理对象并考虑到时间的重要性,从中获取支持煤
矿安全信息抽取的地名实体识别特征与时间识别特征,在此基础上实现了煤矿安
全信息抽取系统。
与英语信息提取相比,中文在文本处理深度、知识资源支持等方面都有较大
的差距。因此,在研究过程中,对于每一项研究内容,我们都分析了现有资源和
文本NT深度对信息提取任务的支持和制约,探索性地研究了具有一定鲁棒性的
时间信息识别方法,以期为进一步的研究奠定基础、找到突破口,以便为下一步
的工作提供经验。
关键词:信息抽取,命名实体识别,地名识别,时间识别,合一函数
The and
ResearchOfChineseNamed
Entity
Recognition
informationextraction
Abstract
Withthe ofthe aresurroundedanimmense
rapiddevelopmentIntemet,we by
seaofinformation.Howto accurateandvalidreformatio‘nfromthisvast
get
informationseaisthe thatInformation toachieve.Itsbasic
goal Extraction(IE)intends
ectivesareto informationwithautomaticandaccurate.
obj get
beenahot issuein
Information theendof1 research
Extraction,Since980’S,has
NLP.It driventoaremarkabletheconstructionofatext
hasbeen degreeby processing
schemetheU.S.and Extraction andevaluationare
by Europe.Informationtechnology
the factorsinits toChineseInformation
amongimportant plan.Withregard Extraction,
researchhadst
文档评论(0)