- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
钱小飞侯敏
中国传媒大学国家语言资源监测与研究中心有声媒体语言分中心北京100024
Email:qiertlying@163.com,bouminxx@263.net
摘要:本文探讨了地名的概念、构成等问题,并针对其分布特点,使用常见地名匹配、碎片分析和组合扩展相结
合的方法初步识别了中文基本地名,包括中国地名和汉译地名。开放测试取得了88.16%的正确率和87.32%的召
回率。
关键词:中文基本地名;命名实体;识别
iofChiBasiLocati
ti
RecognonneseCon
QianMin
Xiaofei,Hou
NationalResourcesandResearchMedia
Center(BmadcaStBranch),Communication
LanguageMonitoringLanguage
100024
ofChina,Beijing
University
Email:qierflying@163.eom,houminxx@263.net
combines
Abstract:"lttidisscusstheesofwellitsitsomemethosdsuch
location
paperconceptasaScomposing.andas
commonlocationandwordsextensionChineBsaesic
fragmentanalysistoLocation,
matching,segmentrecognize
includingtheLocationsofChinaandtheforeignLocationabout88.16%insinChineprecise.Ths
and87.32%inrecall.
BasicEntity;Recognition
Keywords:ChineLsocation;eName
1引言
命名实体识别是汉语自动分词的难题。地名作为一种常见的命名实体,在文本中有着较为广
泛的分布。它的识别可以有效地提高分词精度,同时在信息检索和问答系统等领域也有着重要的
应用。
人脑识别地名通常有三种手段:匹配已知地名,基于内部构成猜测未知地名,基于上下文知
识猜测未知地名。在以往的研究中,这三种手段常常以不同的组合方式集成到统计和规则系统中。
主要的研究有:沈达阳等(1995)利用属性矩阵和频级进行筛选识别地名,刘开瑛(2000)根据
地名词典和语料库估计地名首中尾字的出现概率,并通过各位置用字的概率限制和上下文规则识
别地名:在此基础上,谭红叶等(2001,2002)使.耳j转换及基本地名匹配的方法有效地提高了精
确率。黄德根等(2003)基于地名词表定义了地名的构词可信度,并进一步利用上下文信息定义
了接续可信度,取得了较好的效果。
在识别策略上,如果将己知地名及其内部构成、在语料库中的上下文标志看作是前景信息,
那么非地名构成成分和普通词则是地名识别的背景信息:以往的研究主要着力于前景特征的提
取,而较少从识别背景信息考虑。而据陈小荷(19
文档评论(0)