基于偏正短语的中文自然语言文本水印方法.docVIP

基于偏正短语的中文自然语言文本水印方法.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于偏正短语的中文自然语言文本水印方法

第41 卷 第5 期 2012 年9 月 内蒙古师范大学学报 (自然科学汉文版) JournalofInnerMongoliaNormalUniversity (NaturalScienceEdition) Vol.41 No Sept.201 基于偏正短语的中文自然语言文本水印方法 徐迎晖1,徐晓晖2 (1.广东工业大学 自动化学院,广东 广州 510006; 2.长沙景嘉微电子有限公司研发中心,湖南 长沙 410205) 摘 要:提出一种在汉语偏正短语中增删助词“的”,以及调整联合结构修饰语中各项次序的中文自然语言 文本水印方法.该方法利用结构助词“的”的语用功能和联合结构中各项次序的自由性,通过控制助词“的”的出现 方式或调整联合结构中内部各项的次序,对文本进行修改.为了增强鲁棒性,对秘密信息附加了分帧和纠 错 编 码 等处理.实验结???表明,该方法的隐蔽性好,隐藏容量较大,便于在现有的自然语言处理系统中实现. 关键词:偏正短语;自然语言;文本水印;助词“的”;联合结构 中图分类号:TP391 文献标志码:A 文章编号:1001-8735(2012)05-0494-04 基于文本内容的自然语言文本水印,主要研究在尽可能维持文本原始意义的情况下,从句法结构上或 义上对原始文本进行修改,以达到嵌入和提取水印信息的目的.自然语言文本水印在自然度、隐蔽性和鲁 性方面可以达到很好的性能,目前主要有两个研究方向: (1)基于句法.在不显著改变句子意思和语气的前提下,修改句法分析树,调整措辞和句子结构. (2)基于语义.考虑的 是词语 的 意 义 及 其相互结合所形成 的 句 子 意 义,典 型 的 方 法 有 同 义 词 替 换. 献 [1]还提出通过修改 TMR(TextMeaningRepresentation)树的方式实现对原始文本的修改. 自然语言处理技术尚处于发展期,有关自然语言文本水印方面的研究还不够深入.本文结合汉语语法 若干特点,以偏正短语为对象,利用广泛出现的结构助词“的”的语用功能,以及联合结构做修饰语时内部 项次序的自由性,提出一种基于偏正短语的中文自然语言文本水印方法. 语法原理 偏正短语是短语的结构分类之一,由两个成分以“修饰- 受修饰”的关系组成,其中受修饰成分称为中 语.中心语前面的修饰成分对中心语作出描写或限定.偏正短语又分为定中短语和状中短语两类. 偏正短语可以是主语、宾语或谓语,对应地,其中心语称为主语中心、宾语中心和谓语中心.若中心语 主语中心或宾语中心,则前面的修饰成分称为定语,整个偏正短语称为定中短语.若中心语是谓语中心,则 面的修饰成分称为状语,整个偏正短语称为状中短语.一般来说,体词性的偏正短语属于定中短语,谓词性 偏正短语属于状中短语[2]. 1 偏正短语中的修饰语除了可以是一个简单词之外,也可以是联合结构、主谓结构、递加结构等复杂结构 因此,可以把这些情况的偏正短语形式归纳为 (定/状语 n …(定/状语2 +(定/状语1 + 中心词))…) 一些定/状语的后面常附加有结构助词“的”(状语时有时为“地”),助词“的”的功能有3 种,即句法功能 语义功能和语用功能[3],其中前两种功能对语法结构和意义有不同程度的影响.助词“的”的功能主要用于 造错落形式的文字,以及调节音节和强调修饰语等,这种助词“的”的出现是可有可无的,例如: 定中短语:(中国/n 的/u (劳动/n 人民/n)) 0 (中国/n (劳动/n 人民/n)) 1 收稿日期:2012-03-10 基金项目:广东省自然科学基金资助项目(9451009001002607);广东工业大学博士基金(073003) 作者简介:徐迎晖(1977-),男,湖南省长沙市人,广东工业大学副教授,博士,主要从事配电自动化、信息安全、嵌入式系统研究. 通用性和处理容量. 除此之外,联合结构做修饰语时,内部各项的次序一般来说是自由的,如联合结构作定语: (方/a的/u、圆/a的/u、立体/n的/u、圆锥/n的/u)小凳/n和沙发/n “方的、圆的、立体的、圆锥的”也可以改换成“圆锥的、立体的、方的、圆的”或是其他任何排列,次序的挪 动只有修辞上的意义,并不影响整个格式的基本意义和语法结构.于是可以将各种排列次序赋予不同的编码 (如基于各项的音序或笔画),从而增加水印容量. 水印位置 为了技术实现上的方便,这里只研究以单独词条形式出现的定/状语,并且只处理定中短语中心语为名 词,状中短语中心语为动词或形容词的情况(实际上也是偏正短语的主要出现状态). 2 简单偏正结构 简单偏正结构的修饰语只有一个单词,该修饰语后的“的”如属语用功能,则此处可嵌入 1 比特水印信 息.为此,首先需要建立可接可选助词“的”的定/状语词汇数据库,主要工作包括细

文档评论(0)

153****9595 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档