- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
学年论文模板33860new.doc
学年论文标题 连续时间信号的时域与复频域分析
作者姓名 指导教师 所学专业 班级 所属院系 学习年限 年 月至 年 月 二年 月 关键词 框架本体 语义标注 网络标注 文本匹配 最大熵
1. 引言
语义标注,从本体角度是添加实例,丰富本体的过程;从语义网的角度是语义信息的发布过程,即用户依据一定的本体为页面添加语义信息。基于框架的语义角色标注(Semantic Role Labeling)是浅层语义分析的一种可行性方案,通过分析句子的论元结构,标记出句子中某个动词的所有论元,根据句子中的目标谓词所激起的框架与相关的句子成分之间的语义关系而赋予这些句子成分的语义角色信息。国外的基于框架下的语义角色标注开始于Dan Gildea和DanJurafsky[1],他们实验所用的语料是Berkeley大学开发的FrameNet。FrameNet是以框架语义为标注的理论基础,对英语国家的语料库进行部分标注,试图描述一个词汇单元(主要为动词)的框架以及这些框架之间的关系。国内的语义角色标注研究起步较晚,较早的研究者刘挺等主要参照英文进行标注[2];刘怀军等主要进行“语义角色分类研究”[3]。
本文主要是在前人研究的基础上,参照汉语框架网(CFN),提出了基于PT-GF匹配和基于最大熵算法互补的语义角色自动标注方法。汉语框架网是一个以Fillmore[4]的框架语义学为理论基础,以加州大学伯克利分校的FrameNet为参照,以汉语真实语料为事实依据的汉语语义词典,它主要由本体框架网、词元库和语义角色标注例句库组成。本体框架网是一个支持性内容,它构建了某一领域本体的大体框架,给出了这一领域知识的宏观结构。它类似于词典,构建了一个某一领域所有本体的框架网络体系,这些本体框架根据其之间的不同联系,构成了纵向的继承关系、总分关系;横向的因果关系、起始关系、参见关系等;词元即目标词,词元库包含了某一框架下所有的目标谓词,当文本中出现了这些词时,我们优先将其选择为中心词;语义角色标注例句库是语料库的核心内容,具体标记了所有例句中目标词和其论元成分在文本中的位置、路径等特征和 框架元素、短语类型、句法功能 三元组的具体标注,并对同一个目标词的各个特征进行了总结。
2. CFN语义角色的自动标注
CFN中语义角色自动标注是在对语料库例句进行统计、分析和自动学习的基础上,利用一定的算法和模型给输入文本的各个谓语参数赋予语义的过程。
语义角色自动标注一般分为3个阶段[5],即首先分词、词性标注,过滤掉不可能成为语义角色的句法成分;然后确定目标词和短语(标注单元),对文本进行浅层句法分析,识别出充当目标词语义角色的那些短语;接着将确定为语义角色的短语进行具体的语义角色标注。
2.1 CFN语义角色自动标注流程
由于汉语框架网的建设仍然处于初级阶段,本文所讲的自动标注是在已知给定文本的目标词及其所属框架前提下,并对各短语进行识别、词性标注和句法分析等技术的基础上,探讨语义角色进行自动标注问题,所采用流程如图2.1:
图2.1 CFN语义角色标注流程
2.2 PT-GF的语义角色匹配运算
基于PT-GF的语义角色自动标注是综合考虑短语类型、短语相对于目标词位置、句法功能三个因素以及这三个方面对句子相似度影响的权重,利用余弦算法对输入文本和例句文本的相似度进行计算。
2.2.1 建立文本向量集
分别对例句文本和输入文本建立向量集,其中PT:短语类型集;MU:相对于目标词的位置集;GF:句法功能集。
任意给定一个例句文本和输入文本,则它们的PT分别为:,;MU分别为:,;GF分别为:,。其中为文本中第i个短语的短语类型,n为文本中所拥有的短语数量。为文本中第i个短语相对于目标词的位置,取值有三种:L,T,R, L表示短语在目标词的左边;T表示此短语就是目标词;R表示短语在目标词的右边。为文本中第i个短语的句法功能。
2.2.2 相似度计算
利用余弦算法分别对输入文本和例句文本的短语类型、短语相对于目标词位置、句法功能的相似度进行计算。算法如下:
其中;;
2.3 基于最大墒原理的语义角色自动标注
最大熵原理是在1957年由E.T.Jaynes 提出的,主要思想是在只掌握关于未知分布的部分知识时,应该选取符合这些知识但熵值最大的概率分布。;;
表3.1为例句库中的例句文本:
表3.1 例句库
例句编号 例句 001 南坪区村民高翔近期来使用钓鱼钩等工具从窗户偷了不少市民的衣服、裤子等。 002 昨天下午,这一犯罪团伙又在该区入室盗窃了三个住户。 … ……. 00i 我省不少犯罪团伙以推销东西为借口明目张胆的偷窃居民的财物。 …. …….. 将输入文本与例句文本分别进行相似度计算,结果如表3.2:
表3.2 相似度计算结果表
编号 PT
您可能关注的文档
最近下载
- 2025年出境竹木草制品台帐表单各种表格.pdf VIP
- DB34T 4822-2024 地下水监测井建设技术规范.pdf
- 中国热射病诊断与治疗指南(2025版).pptx
- 第19课社会生活的变迁(课件)-八年级历史下册教学无忧备课课件(统编版).pptx VIP
- 铁路预应力混凝土桥梁智能张拉与压浆施工技术规程.pdf VIP
- DL∕T 1685-2017 油浸式变压器(电抗器)状态评价导则.pdf
- 2025春人教鄂教版(2024)小学科学一年级下册《纸制品》教案及反思.docx VIP
- 建设工程标准化协会标准:TCECS 717-2020 城镇排水管道非开挖修复工程施工及验收规程.pdf
- XX县压缩天然气城市气化工程初步设计说明书.doc
- 调 式 中 的 音 程.pptx VIP
文档评论(0)