“深度学习”计算词和句子的语义相似度及应用.docxVIP

“深度学习”计算词和句子的语义相似度及应用.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
“深度学习”计算词和句子的语义相似度及应用   摘要本文首先简要介绍了基于人工智能和大数据的“深度学习”,重点论述了word2vec算法及其在自然语言处理的应用。运用现有“深度学习”工具计算词和句子的语义相似度,以及一些现实应用。   关键词人工智能深度学习word2vec语义相似度   人工智能是计算机科学或智能科学的一个分支,涉及研究、设计及应用智能机器,中国2017年3月已将人工智能纳入国家战略。   其诞生于上个世纪30年代,经历了不同的发展阶段,致力于研究开发用于模拟、延伸和扩展人类智能的理论、技术及应用系统,希望探究人类收集信息、反应决策和实施行为的本质,并生产出与人类处理问题相似的智能机器。   人工智能经历了如下个历史阶段:(1)孕育奠基期(20世纪30年代到1956年);(2)形成发展期(1956年到20世纪60年代末);(3)低谷瓶颈期(20世纪70年代到80年代初期);(4)专家系统推广阶段(20世纪80年代至90年代);(5)深度学习引领发展阶段(21世纪至今)。随着互联网的全球覆盖为其提供海量的数据基础,算法的进步使得机器的深度学习成为可能,硬件制造水平的提高提升了计算机的数据处理能力,大数据和实时决策时代的到来,让人工智能在各领域的研究成果层出不穷。为了充分利用大数据,数据挖掘、神经网络等各种学科应运而生。把神经网络运用到nlp(自然语言处理)产生了深度学习算法。计算语义相似度是深度学习算法在自然语言处理中的一个非常重要的应用。   1语义距离相似度   刘群、李素建以基于实例的机器翻译为背景,认为语义相似度就是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度。两个词语,如果在不同的上下文中可以互相替换且不改变文本的句法语义结构的可能性越大,二者的相似度就越高,否则相似度就越低。   词语的语义相似度计算主要有两种方法:一类是通过语义词典,把有关词语的概念组织在一个树形的结构中来计算;另一类主要是通过词语上下文的信息,运用统计的方法进行求解。   2词语语义相似度的计算方法   词语距离有两类常见的计算方法,一种是根据某种世界知识或分类体系来计算,一种利用大规模的语料库进行统计。   2.1根据分类体系计算词语语义距离的方法   该方法又称基于树的语义相似度研究方法,基于树的语义相似度计算的算法大体上分为两种:一是基于距离的语义相似性测度;二是基于信息内容的语义相似性测度。英语语义分析网上资源有wordnet、framenet和verbnet,中文的语义词典有《同义词林》。语义词典都是将所有的词组织在一棵或几棵树状的层次结构中。在一棵树状图中,任何两个结点之间有且只有一条路径。于是,这条路径的长度就可以作为这两个词语概念间语义距离的一种度量;而且随着概念所处结点越深,其所包含的语义信息越丰富,越能准确地决定概念的性质,它们对语义相似度起着决定作用。   通过查阅wordne,boy和girl之间的最短路径是boy—male—person—female—girl,最小路径长度为4。而instructor和boy之间的最小路径是instructor—educator—professionalperson—adult—person—boy,最小路径长度为6。因此,girl比teacher在语义上更接近于boy。该测度算法在基于wordnet的语义网中获得了较好的计算结果。   2.2利用大规模的语料库进行统计   语料库语言学是近年来国内外语言学及外语教学界讨论最多的热门课题之一。   基于语料库的词语相似度研究大都采用了上下文语境的统计描述方法,即认同这样一个论断:同义词、近义词的上下文也相同,上下文可以为词语定义提供足够信息。word2vec即是在实际的大规模语料中以该词在上下文中出现的频率来度量,于是对于每一个词都可以得到一个相关性的特征词向量,然后利用这些向量之间的相似度作为这两个词的相似度。   2.3两类主要语义相似度计算方法的比較分为客观计算和经验法两种   客观计算的前提条件是:两个词汇具有一定的语义相关性,当且仅当它们在概念的结构中有且仅有一条路径;而经验法的前提条件是:词语的上下文可以为词语定义提供足够信息,两个词语语义相似当且仅当它们处于相似的上下文环境中。所用的工具不同,前者用语义词典,后者用大规模语料库。前者的理论依据是树图和图论,后者是向量空间。优点比较:前者直观而且简单有效,可以字面上不相似的词汇间的相似度;后者能够客观地反映词语的形态、句法、语义等特点。缺点也是明显的:前者受人的主观影响比较大,有时不能反映客

文档评论(0)

180****8756 + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体盛世风云(深圳)网络科技有限公司
IP属地陕西
统一社会信用代码/组织机构代码
91440300069269024M

1亿VIP精品文档

相关文档