- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
自然语言处理 第四章汉语语料库多级加工
汉语语料库多级加工 目的 语料库的多级加工技术是语料库语言学研究的前沿课题。 它的处理目标是对生语料文本进行多级加工(分词、词性标注、句法分析)形成树库(treebank)语料。 目的:大规模的语料库中提取应用所需要的各个语言单位上的语言学知识。 计算机语料库的功能的决定性因素 语料库的规模 语料库容量的大小直接影响到统计结果的可靠性 语料的分布 语料分布的考虑则关系到统计结果的适用范围 语料的加工深度 加工深度则决定了该语料库能为自然语言处理提供什么样的知识 ? 语料的加工顺序 经过不同阶段的处理,语料库包含的各类信息也不断增加,最终将成为一个名副其实的语言知识库。这样的知识库可以为汉语统计分析、汉语理解和机器翻译等资源提供重要的资源和有力的支持 自动分词 规范 北大计算语言学研究所1994年制订了《现代汉语文本切分与词性标注规范V1.0》。 北大计算语言学研究所于1998年10月制订了《现代汉语文本切分与词性标注规范V2.0》 后改名为《现代汉语语料库加工规范》。 分词的主要难点 切分歧义 交集型 覆盖型 未登录词 就是在词典中没有登录过的人名, 地名, 机构名, 新词语等. 当采用匹配的方法来切词时, 由于词典中没有登录这些词, 会引起自动切词的困难。 歧义切分字段在汉语书面文本中所占的比例并不很大,在实际的书面文本中,特别是在新闻类文本中,未登录词的处理是书面文本自动切分的一个十分突出的问题。这是汉语书面语自动切分的另一个难点。 中国人名识别(1) 根据统计, 汉语姓氏大约有1000多个, 姓氏中使用频度最高的是“王”姓, “王, 陈, 李, 张, 刘” 等5个大姓覆盖率达32%, 姓氏频度表中的前14个高频度的姓氏覆盖率为50%, 前400个姓氏覆盖率达99%。 人名的用字也比较集中。 频度最高的前6个字覆盖率达10.35%, 前10个字的覆盖率达14.936%, 前15个字的覆盖率达19.695%, 前400个字的覆盖率达90%。 第一次出现的人名叫做“定义性出现”, 尔后出现的人名叫做“使用性出现”。 为此, 在切分时可根据人名在定义性出现时的限制性成分首先建立人名表。 中国人名识别(2) 人名的限制性成分主要有 身份词:表示人的职务, 职位, 头衔的词语和亲属称谓的词语. 有的出现在人名之前, 如“工人, 教师, 丈夫, 妻子, 犯人”, 有的出现在人名之后, 如“先生, 女士”, 有的可以出现在人名的前面和后面, 如“教授, 总理”。 许多身份词带有后缀字, 如“在逃犯, 理发员, 面包师, 目击者”中的“犯, 员, 师, 者”等。 地名和单位名: 如“浙江绍兴周树人, 国家语委冯志伟”。 复杂的定语: 如“德高望重的吕叔湘先生”。 根据这些限制性成分,可以有效地识别人名 中国人名识别(3) 中国姓氏用字中有的是专用作姓氏的, 如“赵, 邓, 潘, 冯”等, 有的则兼作其他词语使用, 如“顾, 黄, 周”等, 对于兼作其他词语的姓氏, 需要建立规则来判断。 “顾”兼作动词 记者顾小东 只顾短期的经济利益 规则: 如果“顾”前有副词(只), 则“顾”不为姓氏。 “黄”兼作形容词 黄曾阳研究概念层次网络 彩色的光带射到黄玻璃上 规则: 如果“黄”后有物质名词,则“黄”不为姓氏。 “周”兼作量词 由周恩来任国务院总理 地球自转一周 规则: 如果“周”前有数词, 则“周”不为姓氏。 外国人名识别(1) 《英语姓名译名手册》中共收英语姓氏, 教名约4万个, 经计算机统计得出英语姓名译名用字表共476个: “啊阿埃艾爱昂奥巴白柏拜班邦包保堡鲍北贝倍本比彼边别滨宾玻波博勃伯卜布采蔡藏策查察昌彻陈楚垂茨慈次聪存措达大戴代丹当道德得登邓迪底地蒂第帝丁东杜敦顿多厄恩耳尔法凡范方菲费芬丰冯佛夫福弗辅富盖甘冈高哥戈葛格各根贡古顾瓜圭郭果哈海罕翰汉杭豪赫黑亨洪侯胡华怀惠霍基吉季计嘉佳加贾简姜焦杰捷金津京久居喀卡开凯坎康考柯科可克肯孔扣寇库夸匡奎魁坤昆阔拉腊莱来赖兰朗劳勒乐雷黎理李里礼荔丽历利立莲连廉良列琳林霖龄留刘流柳龙隆卢鲁露路吕略伦萝罗洛玛马麦迈满曼芒茅梅门蒙孟米密敏明名摩莫墨默姆木穆拿娜纳乃奈南内嫩能妮尼年涅宁牛纽农努女诺欧帕派潘庞培佩彭蓬皮匹平泼朴普漆奇齐契恰钱强乔切钦琴青琼丘邱屈让热仁日荣茹儒瑞若撒萨塞赛三缮桑瑟森莎沙珊山尚绍舍申生盛圣施诗石什史士寿舒朔斯思丝松孙索所塔泰坦汤唐陶特藤提惕田铁汀廷亭通透图托脱娃瓦万旺威韦为维伟魏卫温文翁沃乌武伍西锡希悉席霞夏显香向晓肖歇谢欣辛兴幸姓雄休修雪逊雅亚延扬阳尧耀耶叶依易意因英永尤雨约宰赞早泽曾扎詹湛章张哲者珍真芝知智治朱卓兹子宗祖佐丕谟葆薇岑弼娅缪珀瑙赉滕斐熙鸠窦艮麟黛”。 ?利用这个译名表,可初步确定外
您可能关注的文档
最近下载
- 心理测评399.doc VIP
- 男科的现状与发展战略.pptx VIP
- BOSS效果器ME-70中文说明书.pdf VIP
- 2025年工商管理硕士(MBA)联考综合能力真题及答案.docx VIP
- 5.3 认识直角(课件)2025-2026学年度北师大版数学三年级上册.pptx VIP
- 《大学语文》怎样读懂一首诗(1)-教学课件.ppt
- 幼儿照护中级核心技能考评标准.pdf VIP
- 老视框架眼镜验配专家共识(2025).docx VIP
- 基层医疗卫生机构常见新生儿疾病诊疗指南:新生儿复苏(2025年).pptx VIP
- 《基于STM32单片机的LED室内照明智能调节系统设计(附PCB图和原理图)》11000字.docx
文档评论(0)