- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
词向量模型概述
1.1Word2vec模型
Word2vec作为一种词嵌入方法尝尝被用于自然语言处理任务中,它是Mikolov等人ADDINEN.CITEEndNoteCiteAuthorMikolov/AuthorYear2013/YearRecNum122/RecNumDisplayTextstyleface=superscript[52]/style/DisplayTextrecordrec-number122/rec-numberforeign-keyskeyapp=ENdb-id=xxp5f09arwdtx3e2907vv2rwtxzpxpx2ezattimestamp=1647622056122/key/foreign-keysref-typename=JournalArticle17/ref-typecontributorsauthorsauthorMikolov,Tomas/authorauthorSutskever,Ilya/authorauthorChen,Kai/authorauthorCorrado,GregS/authorauthorDean,Jeff/author/authors/contributorstitlestitleDistributedrepresentationsofwordsandphrasesandtheircompositionality/titlesecondary-titleAdvancesinneuralinformationprocessingsystems/secondary-title/titlesperiodicalfull-titleAdvancesinneuralinformationprocessingsystems/full-title/periodicalvolume26/volumedatesyear2013/year/datesurls/urls/record/Cite/EndNote[52]对词汇信息进行研究时得出的,该方法可以通过词汇共现信息从给定的大量无标注语料数据中将词汇汇编成为词的向量形式,经训练完成之后,它们可以用来反应词与词之间存在的语义关系。
Word2vec模型可以分为两类,一类是跳字模型(Skip-gram),另一类是连续词袋模型(ContinuousBagofwords,CBOW),它们都可在词向量训练时进行使用。将其结构图进行描绘,具体样式如图2-3所示:
图2-3Word2vec模型结构图
在上述两种模型中,都具备相同的三层结构,分别是输入层、投影层和输出层,但两种模型之间的原理并不相同。CBOW模型可以计算词出现的可能性,具体的计算过程需要联合上下文中的词语来进行,将其形式化:
(2-12)
在公式(2-12)中,代表某一位置的词汇,而和则代表以这一词汇为基准的上下文词汇。Skip-gram模型与前者存在很大的反差,它是文本内容中通过词的位置来反向对前后词汇和的预测,将其形式化:
(2-13)
在大多数的实验中,Skip-gram模型一般训练用时比BOWM模型训练用时要长,且预测结果的准确度也相对较高。
1.2BERT模型
自然语言处理技术中还有一种是Devlin等人ADDINEN.CITEEndNoteCiteAuthorDevlin/AuthorYear2018/YearRecNum45/RecNumDisplayTextstyleface=superscript[53]/style/DisplayTextrecordrec-number45/rec-numberforeign-keyskeyapp=ENdb-id=xxp5f09arwdtx3e2907vv2rwtxzpxpx2ezattimestamp=163595390945/key/foreign-keysref-typename=JournalArticle17/ref-typecontributorsauthorsauthorDevlin,Jacob/authorauthorChang,Ming-Wei/authorauthorLee,Kenton/authorauthorToutanova,Kristina/author/authors/contributorstitlestitleBert:Pre-trainingofdeepbidirectionaltransformersforlanguageunderstanding/titlesecondary-titlearXivpreprintarXiv:1810.04805/se
您可能关注的文档
- 2026《“今日头条”算法推荐产生的价值问题分析》12000字.doc
- 2026《“全面二孩”政策下中国人口总量与结构预测分析案例》3700字.docx
- 2026《“养老服务助手”微信小程序的设计与实现》7600字.docx
- 2026《1,6-己二醇生产的主要设备计算过程案例》3200字.docx
- 2026《12kV真空灭弧室内部电场分布影响因素分析综述》3400字.docx
- 2026《35kV变电所短路电流计算与电气设备选择分析案例》4000字.docx
- 2026《35kV变电所继电保护及防雷保护设计计算案例》4500字.docx
- 2026《35kV变电所主变压器选择与主接线设计计算过程案例》4800字.docx
- 2026《Arnold置乱算法理论基础综述》1300字.docx
- 2026《A房企ABS业务专项计划现状、动因及风险分析案例》22000字.docx
- 2026《大气压低温等离子体射流实验装置及仿真模型分析综述》2600字.doc
- 2026《单罐熔盐储热系统及其建模分析案例》3100字.docx
- 2026《单片机控制的简易电动车系统硬件设计案例》2700字.docx
- 2026《电池热管理系统研究现状的国内外文献综述》4100字.docx
- 2026《电动车驱动电路与PWM闭环调速系统分析案例》1500字.docx
- 2026《电力系统电压稳定与频率稳定协调控制研究》18000字.doc
- 2026《电力系统弱阻尼振荡的抑制方法及稳定器设计原则》13000字(论文).doc
- 2026《电梯控制PLC系统的硬件设计案例》1600字.docx
- 2026《电梯绳轮的零件分析案例》1900字.docx
- 2026《电压力锅发展技术现状文献综述》2900字.doc
原创力文档


文档评论(0)