- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于语义关系图词义消歧方法
基于语义关系图词义消歧方法 摘要:针对传统的词义消歧方法不能对短小的用户查询词进行词义消歧,提出了一种基于语义关系图的词义消歧方法,利用改进的PageRank算法计算语义关系图中的各词义节点权重,选择权重较大的词义作为消歧后的查询词词义。实验结果验证了该方法的有效性。 关键词:词义消歧;本体;PageRank算法;语义;权重 中图分类号:TP301 文献标识码:A 文章编号:1009-3044(2013)07-1548-03 词汇的多义性在自然语言中普遍存在,词义消歧是指根据词汇所处的语境来确定词汇的具体含义。词义消歧在信息检索、机器翻译、文本分类等自然语言处理领域有着重要的理论研究和广泛的实践应用。根据词义消歧过程中是否利用已标注词义的训练文本集可将词义消歧方法分为有监督词义消歧和无监督词义消歧两大类[1]。有监督词义消歧通过对训练语料库进行词义标注,采用机器学习的方法来判定待消歧的新实例词义,这种方法具有较高的消歧准确度,但对训练语料库的词汇标注量依赖较强,且标注文本集费时费力,不易获得。无监督词义消歧则直接从原始数据集或知识词典中判定新实例的词义,随着语义词典的不断完善,基于知识的无监督词义消歧成为近年来的研究热点[2]。 在信息检索中,当用户使用较多的查询词描述查询需求或各查询词围绕同一个主题时,已有的这些方法能够取得较好的查询词义消歧效果,但当用户查询词较少或各查询词的主题关联性较小时,这些方法并不能很好的获得查询词的词义,为了解决当用户查询词短小时较为准确的获得用户查询词义的问题,该文提出了一种基于语义关系图的查询词义消歧方法。该方法以待消歧词及其上下文词汇在WordNet中的所有词义为节点,以WordNet中的连接关系为边构造语义关系图,并应用改进的PageRank算法得到语义关系图中各词义节点的权值,则待消歧词义中权值最高的节点词义即为该消歧词的词义。 1 相关知识 正文内容。WordNet是由普林斯顿大学设计的一个基于认知语言学的在线英语词典[3]。WordNet按照单词的意义将其组成一个“单词的网络”,具有相同词义的词条形成同义词集。每个同义词集代表一个潜在的概念,同义词集之间通过各种语义关系进行互联。WordNet用词频来表示同义词集所代表的词义在训练集中出现的频率。另外,WordNet还将词性相同的同义词集按照上下位关系组织成层次结构的形式,其中名词部分的层次结构占了大约80%的比重。WordNet是完全免费的资源,其数据库及相应的软件工具可以自由下载使用。 PageRank算法[4]是一个基于图论的算法,在Google搜索引擎中被采用进行页面重要性的判断。从页面A导向页面B的链接被看作是A对B的支持投票,则页面的PageRank值取决于页面获得的投票数和投票者的重要性值。设G=(V,E)是一个具有节点集V和边集E的有向图,E是V×V上的子集,那么节点Vi的PageRank值定义如下: (1) 其中,表示指向节点Vi的链接源节点集,表示由节点Vj指出的链接目标节点集,表示中的节点数量,d是一个制动因子,取值范围为(0,1)。 PageRank算法对于任意分配的图节点的初始PageRank值,循环进行节点PageRank值的计算,直到图中节点的PageRank值全部收敛为止。 2 基于语义关系图的词义消歧方法 消歧算法描述: 输入:待消歧的多义词 输出:歧义词消歧后的词义 步骤1:根据WordNet中的定义,构造以待消歧词词义和上下文词汇词义为节点,以WordNet中的语义关系为边的关系图G; 步骤2:运用改进的PageRank算法计算关系图G中的节点权重; 步骤3:选取待消歧词义各节点中权值最高的节点词义做为消歧后的词义。 2.1 构造语义关系图G 对于用户的查询请求,文中采用隐式反馈技术自动获取初次检索结果的相关文档,提取这些文档中的实词做为查询词的消歧上下文。以待消歧词和上下文词汇在WordNet中的所有词义做为关系图G的节点,以WordNet中定义的语义关系做为词义节点间的无向连接边,语义关系的强度做为连接边的权重,根据语义关系在WordNet中的强度,文中对G中的连接边权重进行了重新定义。当两个词义节点间具有超过一种的语义关系连接边时,选取这些语义关系中最大的强度做为两词义节点边的权重,由此构造出的无向边加权图即为消歧的语义关系图G。 2.2 利用改进的PageRank算法进行词义消歧 原始的PageRank算法适用于边权重相同的有向图,因此对于构造好的语义关系图G来说,需要对PageRank算法进行适当的修改。在改进的PageRank算法中,当节点N1与节点N2具有连接边时,则认为N1对N2具有关联投票
原创力文档


文档评论(0)