- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于Perl的词义消岐方法研究与设计
摘要:该文介绍了一种基于Linux环境使用Perl语言实现的词义消岐小系统,算法主要由预处理、计算词向量和上下文向量多义词向量几个过程。通过计算某一义项与目标项的义项词语所具有相似性,比指示其他义项词语具有更强的相似性,以此为基础来完成多义词词义的消歧工作.并对语料进行实验得出结果分析不足,待进一步研究。
关键词:消岐;义项;向量
中图分类号:TP311文献标识码:A文章编号:1009-3044(2009)24-6765-01
The Research and Design ofWord Sense Disambiguation Based on Perl Programming
SHI Hai-feng1,3,SHI Jing2
(1.SuzhowUniversity College of Computer Sciences and Technology,Suzhou 215006,China; 2.Changzhou College of Information Technical, Changzhou 213164, China; 3.Jiangsu Polytechnic University,Changzhou 213164, China)
Abstract: The paper presents a smart system by Perl Programming based on Linux.The algorithm contents pretreatment, word vector computuing and sense vector computing. By Similarity Analysis between one sense and target item, finding the stronger Similarity than other words. And completing the word sense disambiguation. The results of testing the corpus shows the shortage, and there will be a further studing.
Key words: disambiguation; sense; vector
语言文字是信息的首要载体。随着计算机和因特网的推广应用,由数据处理、信息处理发展到知识处理,对语言文字处理要求的深度和广度越来越高,可以认为一个国家的语言文字的信息处理水平和处理量基本上代表了这个国家进入信息社会的程度,其语言文字信息处理能力直接关系到它在网络社会和网络经济中的国际竞争能力。
本质上说,利用计算机进行自然语言处理是一个不断消歧的过程。词义歧义就是自然语言处理中很典型的一类歧义问题。自然语言处理过程中,在特定的上下文中的某一个词汇具有多个词义时,就可能出现词的歧义现象。
1 Perl语言
Perl被称为骆驼语言。发明perl的Larry Wall就说过:“Perl可能不好看或者不好闻,但是它能完成任务”。Perl的应用功能有很多,包括网络编程、系统管理和Web脚本编写语言等,此次主要关注的Perl的文本处理功能,其实Perl最初就是为了这个目的设计的。
2 算法分析与设计
本设计的基本思想是: 在上下文环境分布上,多义词某一义项与指求项的义项词语所具有相似性,比指示其他义项词语具有更强的相似性,以此为基础来完成多义词词义的消歧工作。具体过程如图1所示。
第一阶段: 把所用语料去除停用词,如的,地,标点等等。其中词用停表是在网上下载的。
第二阶段:形成词向量 (1)统计词数,词数大于80作为特征词。(2)二维词向量:每个特征词为一行,每个歧义词的一列,形成一个二维向量表,计算过程是如果一段包括歧义词,把这段出现的特征词词频在二维表中加一。把二维表中的每个词频作为特征词的消歧权重。其中语料是第一,三部分。
第三阶段:上下文向量 (1)从第一,三部分语料中抽取训练样例,条件是包括歧义词切词数大于60的一段上下文。(2)训练样例中词映射到词向量中形成上下文二维向量表。
第四阶段:计算词义向量(1)计算上下文的相似度,目前用的是最大相似度,计算每对上下文共同出现特征词的权重。(2)用聚类的算法聚成二类.目前已用的聚类算法是Average Link Clustering aka McQuitty’s Similarity Analysis。形成词义向量,词义向量=权重*上下文出数某特征词的次数/某一类的总上下文数总数
第
您可能关注的文档
最近下载
- 2025青海公司所属华电(格尔木)能源有限公司面向华电系统内外招聘180人笔试参考题库附答案解析.docx VIP
- 意大利语基础单词与日常用语修订稿.docx VIP
- 2025南方电网文山供电局招聘短期项目制用工(35人)笔试模拟试题及答案解析.docx VIP
- 中文版新视线意大利语中级练习手册.docx VIP
- 山东科学技术版劳动实践指导手册一年级全册教学设计教案.pdf
- 山东科学技术版劳动实践指导手册二年级全册教学设计教案.doc
- 2025至2030年中国淫羊藿提取物行业市场竞争态势及发展前景研判报告.docx
- chiavi del Quaderno degli esercizi新视线意大利语初级练习册答案.pdf VIP
- 主、被动防护网施工组织设计方案.docx VIP
- 山东科技出版社劳动实践指导手册二年级第1课清洁与卫生小件衣物清洗洗内衣 教案.doc VIP
文档评论(0)