数量结构的自动识别方案.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数量结构的自动识别方案??拷峁沟睦嘈图白远?侗鸬囊庖??绦虻乃惴ㄉ杓萍白芰鞒?摘要:数量结构是现代汉语中的一个重要组成部分.对于中文信息处理而言,实现其自动关键词:数量结构;自动识别;?镅?冯敏萱?识别将对查找中文文本中的重要命名实体有很大帮助。本文分析了数量结构的各种类型,提出了?镅允迪值牟呗院退惴ǎ?詈螅?臣瞥隹7挪馐缘慕峁??柘肓私ɡ闯绦虻母慕?较颍?语言学界将数词和量词的组合称为“数量短语”。在中文信息处理中,对于数词、量词和数量结构的处理也都是必不可少的。但目前,无论是自动分词还是词性标注,都仍然存在着~些不足。例如:??年国家标准《信息处理用现代汉语分词规范》??疶在数量词的分词上就有不~致的现象,如《规范》中规定“~个”不分,而“两个”,“三个”却要分。此外,由中国科学院计算所软件室提供的????执始按市员曜⑷砑?杂谟行?现数量结构的自动识别,不仅可以为本体研究进行大规模语料采集提供帮助,而且可以在自动分词中避免不一致的问题,并为更好地标注复合量词等提供有价值的信息。此外.数量结构自动识别的另一个重要价值在于它将对查找中文文本中的重要名词,尤??月《人民日报》中的一些例子,如:?????殖〈醋髁颂馕?攴伞泛廷?????两幅画作.??颐腔狗梦柿艘桓雒?卸嘎⒑拥拿缱宕逭?????行凸逸病??可以看出。划线部分都是些重要的命名实体,想直接查找到它们很难。但倘若利用数量结构与名词的密切关系,通过数量结构,进而在文本前后找到它们,就切实可行多了。从已往的研究成果看,学者们都是将数词和量词分别划分小类的,如:朱德熙在《语法讲义》中就将数词分成了?啵??看史殖闪?类.可谓非常的细致。但对于数量结构究竟有多少类型却未见有人明确提出,只是王希杰在《数词·量词·代词》中较详尽地列出了具体的组合实例。经过考察,以为中文信息处理服务为目的,我认为可以将数量结构的类型分为以下?类:??耙恍?⒘?毙停??“好些、初”型;??俺伞⑿ 毙停??“来、余”或符号型:??复合量词型:??形容词型;??一般数量结构;??数量重叠式:??从上述数量结构的类型不难看出。能够进入数量结构的词语是有限的,而且各词语在数量结构中的位置也相对固定,只有数量结构的首词语的变化比较多一些。因此,程序的首要工作是建立三张表。第一张表?????畉??谐鍪?拷峁沟氖状?词语,并给每类词一个字母符号作标记?旱诙?疟韖???????畉???拷峁怪械娜?部词语,也给每类词语一个字母符号作标记,和第一张表有重复的词语.在两张表中的符号标记是相同的?坏谌?疟鞰??.?????们傲秸疟砦8骼啻视锓峙涞淖帜副昙牵???复合量词就标注不出来,如“??ɡ镄∈薄本捅瓿闪恕??/?ɡ铮痲小时,?薄R虼耍??其是命名实体会有很大帮助。我们从?型;??暗健⒎种?毙停??“第”型:??昂谩毙停??“半、子”型:??⒗????“年、日”型:??“面、样”型:??“半天”型:??“十分、万分”型。?暇┦Ψ洞笱?难г海??漳暇???????:?????????????????甤?? 7挪馐越峁?治?种特殊组合的处理。如断点为“年、月、日”、??’、“两”以及各种数量重叠式等。词组合模式及需要特殊处理的结构模式一一列出,并给出处理标记。根据数量结构的特点,我们利用数量结构首字词表来控制数量结构的左边界,再利用量词的有无和组合类型来决定数量结构的右边界。具体实施步骤如??发现数量结构的首词。或者一直查到文件末尾,程序结束。??治鍪状实睦嘈汀H绻?俅?是“一些、俩、仁”犁则使用确定标记?尽?直接标为数量结构,如果是“半天”型、“十分、万分”型等类型就直接标为不确定标记?谌?。??1偈?槔创娣派弦徊狡渌?情况的首词标记。并继续向下查找,看其后是否是在第二张表?????????谐鱿?的词.即可能出现在数量结构中的词。如果~个也没有查到,取消存放在数组中那个首词的标记,再同到第二步继续往后商。如果发现是第二张表中的词,则将其标记继续存入数组中.循环查找赢到不是为?贰U馐保??橹写嫒氲氖窃谖谋局杏墒?拷峁褂么使钩傻牧??畛ぷ?到、至、点、有、义、分之?榷甲魑6系悖?允?橹械谋昙谴幼笙蛴乙来尾檎遥?糠⑾忠?个断点,就将它前面的数词或首词和它一起存放为一个区,与后面标记分开存放。依次进行.直到数组中的全部标记划分完毕。???扛鲂∏?娣诺谋昙亲楹辖?蟹治觥=??呛偷谌?张表???畉?中的各类模型进行匹配。对丁?挥小ǜ隽看驶蚱渌?系悖?懊嬉逦:戏ㄊ??结构的,记卜第三张表中提供的标记方式?幢瓿扇范ū昙牵?故遣蝗范ū昙?。对于量词等断点前无数词的记为一类。对丁有连续量词情况的记为一类,连续数词后没有量词的记为一类。??陨弦徊揭丫?范ǖ氖?步峁?人多数是一般的数量结构??凑占窍碌谋昙欠?式进行标记。???菔?橹谢?殖龅男∏?母鍪?

文档评论(0)

ouyangxiaoxin + 关注
实名认证
文档贡献者

一线鞋类设计师,喜欢整理收集文档。

1亿VIP精品文档

相关文档