军事文献中复杂字母词语形式分析.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
军事文献中复杂字母词语形式分析

军事文献中复杂字母词语形式分析   【内容摘要】字母词语作为未登录词是中文分词中的难点,军事领域文献中富含复杂的字母词语,本文通过考察真实军事文本中复杂字母词语的使用情况,对其内部结构进行抽象概括,提出复杂字母词语由“字母符号串”与“汉字串”组合而成,并分析了“字母符号串”和“汉字串”的内部结构形式特点。这些特点有利于制定军事领域字母词语自动识别规则。   【关 键 词】复杂字母词语 完整性 字母符号串 汉字串      一、引言   近几年,随着切分语料的不断丰富以及机器学习理论的逐步完善,中文分词技术取得了显著的突破,但未登录词(OOV)的切分与识别一直是影响中文分词精度的重要瓶颈。字母词语不仅是很多术语和专名的来源,也是自动分词中的未登录词。   目前面向中文信息处理的字母词语研究比较成熟,并且在通信、广告、网络媒体等领域也都有拓展,但军事文献中的字母词语尚未有人涉足。正确地切分军事领域中的字母词语不仅可以完善中文信息处理,也有利于军事文献识别以及军事话题跟踪、热点发现等应用领域的发展。   基于以上分析,我们对《现代军事》、《兵器知识》、《舰载武器》等杂志(2007年上半年)进行了考察,随机提取出2000条复杂字母词语,根据其内部特征提出了“字母符号串”和“汉字串”的概念,并采取定性+定量的方法分析其形式特征。希望对中文信息处理有所价值。   二、军事文献复杂字母词语内部划分及内部组合   刘涌泉最早提出字母词概念,他认为“字母词是指汉语中带外文字母(主要是拉丁字母)或完全用外文字母表达的词,前者如B超、卡拉OK,后者如CD、UFO。它是一种新形式的外来语”。   (一)内部划分   和以往的研究方法不同,我们没有将整个复杂字母词语看作字母、汉字、数字、以及各种符号的组和,而是在形式化抽象的基础上将其视为“字母符号串”和“汉字串”的组合,目的是为了最大程度保证字母词语的完整性,同时也为了叙述方便。下面分别介绍一下对这两个命名的界定。   A:字母符号串   我们借用刘涌泉关于字母词的定义,将“字母符号串”命名为“由拉丁字母(包括汉语拼音字母)或希腊字母构成的或由他们分别与符号、数字或部分特殊汉字混合构成的连续的字符串。”例如:“梅科”A200型(南非称“骁勇”级) 护卫舰、AN/SLQ-25A“水精”拖曳式鱼雷诱饵系统、AN/GSR-8(V)REMBASS-Ⅱ型无人值守传感器系统等。   B:汉字串   复杂字母词语的“汉字串”部分通常由军事术语构成。“汉字串”包含表述军事概念的词(声纳、雷达、坦克、马赫、沙林等)、词组或短语(便携式遥控弹药控制系统、拖曳式线列阵被动声纳等)。   (二)复杂字母词语内部组合    我们将“字母符号串”用“A”代替,将“汉字串”用字母“C”代替,两者组合方式表示如下:   ①:A+C型组合。例如:F-16BLOCK52战斗机BM-21“冰雹”122毫米40管火箭炮“三叉戟”ⅡD-5潜射弹道核导弹等。该类型共出现1758次,占88.1%。   ②:A型。这种情况下C缺省,由A来代表装备命名。例如:SDB-Ⅱ型(GBU-40)、BM-21“冰雹”、“涟”号(DD113)等。该类别共出现163次,占8%。   ③:C+A型组合。例如:高波(DD110)级、机载C-130、雅克-9T等。共42个。占2%。   ④:C+A+C型组合。例如:克里莫夫RD-93型涡扇发动机、忠武公李舜臣(DDH975)级多 功能驱逐舰等。该类共出现19例,占总数的1%   ⑤:A+C+A型组合。例如:AN/SPS-49(Ⅴ)8两坐标远程对空搜索雷达(C/D波段)、SSCWI火控系统(I/J波段,采用……)等。共10例,占0.5%   ⑥:复杂类型组合。例如A+C+A+C:阿特拉斯电子9600 ARPA导航雷达(I波段);C+A+C+A+C:波音F/A-18D“大黄蜂”战斗机AN/APG-65F雷达等,这部分装备命名出现的几率很小,共出现8次,占0.4%。   三、字母符号串内部特征    将含字母的装备命名分为“字母符号串”和“汉字串”的是为了方便抽象概念,归类实体,从而提高待切分词语的完整性。所以设计算法完整识别“字母字符串”时我们主张将符号最大似然归类,即以字母为“锚点”,进行向前向后扫描,当一个符号的临位仍是符号(字母、数字、标点、特殊汉字等)时,我们将其与“锚点”结合并继续判断下一位,直到下一位不符合条件为止。整个算法的主要难点在于(1)正确区别“字母符号串”中的“特殊汉字”和“汉字串”中的汉字。(2)正确区别“字母符号串”中的标点符号和句末标点。由于“特殊汉字”往往和标点符号搭配出现,所以我们有必要对“字母符号串”中标点和特定汉字“式、级、型、号、第、厘

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档