- 1、本文档共63页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉语语料库的切分标注处理和专名识别
汉语语料库的切分标注处理和专名识别 摘要
汉语语料库的切分标注处理和专名识别 摘要
当今信息处理中占绝大比例的是语言文字的处理,与传统的理性主义方式相辅的是经 验主义方法,其中大规模真实文本语料库加工因具有实用性强、见效快的特点,普遍受 人欢迎。
语料库语言学是80年代才崭露头角的~门计算语言学的新的分支学科,它的应用领 域极广,包括文本分类、检索、自动摘要、信息获取、简单的机器翻译和基于实例的对 话系统。语料库语言学研究的基础是机器可读的大容量语料库,由于原始的未经加工处 理的文本(生语料)很少直接起作用,需要先对其进行分析处理才能运用于实践。
汉语不同于印欧语种,缺乏天然的分割信息,要进行汉语的计算机处理,必须首先将 汉语的词与词分开,即分词(也称切分),切分是中文语料处理的第一步;为词语标上其
_}:吁属的词类就是词性标注,是语料进一步加工的必须过程。由于多年来汉语语料切分标
:缺乏一个全国统一的详尽的加工标准,各家研究机构由于研究目的等不同,加工的语 j斗不能兼容,造成了资源的重复建设和浪费;同时,切分中的排岐和未登录词特别是专 沼词的识别一直困扰着切分标注,成为语料加工的瓶颈,甚至可以说也成为整个中文 i息处理平台的瓶颈。本文主要着重解决这两个问题。
本文设计并基本实现了一个具有专名识别功能的多输出的汉语切分标注系统,同时考
·《了系统的效率和可扩充性等实用方面的问题。 为了能使加工的语料既符合国家制定的加工规范,又能适应不同应用的实际需求,本
文提出了一个规范独立的加工模型。在基本的分词和标注模块之后,有一个单独的规范 爿则处理模块,系统的分词和标注模块可同切分标注的相关规范无关,一旦规范修改, 一需替换切分标注规范规则文件即可。同时,本系统在加工中对每个词都加上了信息,
』卜性化输出模块可阻根据这些信息按需输出不同颗粒度大小的加工结果。 在切分和标注模块,系统改进了前缀码分词算法,采用了结合前缀词表的首尾二字哈
希查找算法来提高效率,同时,针对单独使用规则或概率方法消歧的不足,将两种方法 有机的结合起来进行歧义消减。
在专名识别方面,在参考国内各家方法的基础上,系统设计了自己的人名识别和地 名识别的统计模型,提出了一套结合上下文信息,综合运用统计、规则、资源库的识别 方法。方法提出了专名识别缓冲区的概念,更加注重局部范围内专有名词的出现频率。 在实现系统中获得显著效果
在本文的最后,在对测试数据分析的基础上,针对系统的不足,提出了系统进行进 一步改进的侧重点和方法。
关键词 语料库,规范,切分,词性标注,专有名词,哈希表
汉语语科库的切分标注处理和专名识别
汉语语科库的切分标注处理和专名识别 摘要
SEGMENTAT I ON,PART OF SPEECH TAGG I NG OF CH I NESE CORPUS AND PROPER NOUN RECOGNITl0N
ABSTRACT
Nowadays a majority of information processing research is natural langmge processing. And there are two kinds of language analysis methods,experimentalism method and intellectualism method,which are supplement each other.As a kind of experimentalism method,large—scale realistic text corpus processing is very popular because of its great
practicability and effects.
Corpus linguistic is a new branch ofcomputational linguistic which made a figure in 1980s. It Call be applied to the fields of sorting,searches,text condensation,information acquisition, simple machine translation and instance based dialog system.The base of corpus linguisti
您可能关注的文档
- 国有独资商业银行股份制改造研究-政治经济学专业论文.docx
- 关于中等职业美术教育速写教学的思辨-美术学专业论文.docx
- 贵州省疫情地理信息系统的设计-计算机应用技术专业论文.docx
- 国有商业银行金融风险及防范研究-管理科学与工程专业论文.docx
- 关于中西方新闻客观性的探讨研究-现当代文学(新闻学方向)专业论文.docx
- 广西农民负担问题研究-农业经济管理专业论文.docx
- 含氟吡唑酰胺及含氟酰基吡唑硫脲类衍生物的设计与合成-有机化学专业论文.docx
- 过氧化氢对培养心肌细胞的氧化损伤和褪黑素的心肌保护作用-老年医学专业论文.docx
- 关于我国劳动参与率的分析-劳动经济学专业论文.docx
- 管理者收购与公有企业改革-工商管理专业论文.docx
最近下载
- 小学数学奥林匹克训练题库.pdf
- 初中数学说题比赛:新人教版九年级上册教材第63页第10题(共19张)教育精品(打印版).docx VIP
- 22G101 三维彩色立体图集.docx
- ANSYS-Workbench教程及实例2(最新整理版).docx VIP
- 中国汽车强制性产品认证3C认证课件.pptx
- 初中数学说题比赛:新人教版九年级上册教材第63页第10题(共19张PPT).ppt VIP
- 印尼会计准则与国际财务报告准则趋同研究.pptx VIP
- 人工智能在农业生产中的应用与智慧农业.pptx VIP
- 2024-2025学年统编版道德与法治七年级上册期末模拟测试卷(含答案).pdf VIP
- 期末学情评估卷(含答案)统编版2024道德与法治七年级上册.doc VIP
文档评论(0)