- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
下一张目录***************前言计算机老外来访被请吃饭。落座后,一中国人说:“我先去方便一下。”老外不解,被告知“方便”是“上厕所”之意。席间主宾大悦。道别时,另一中国人对老外发出邀请:“我想在你方便的时候也请你吃饭。”老外愣了,那人接着说:“如果你最近不方便的话,咱找个你我都方便的时候一起吃。人类VS语言模型判断一句话是不是正常人说出来的给定一个字符串”w1,w2,w3,w4,…,wt”,计算它是自然语言的概率、P(w1,w2,…,wt)=P(w1)×P(w2|w1)×P(w3|w1,w2)×…×P(wt|w1,w2,…,wt?1)P(大家,喜欢,吃,苹果)=p(大家)p(喜欢|大家)p(吃|大家,喜欢)p(苹果|大家,喜欢,吃)p(大家)表示“大家”这个词在语料库里面出现的概率;p(喜欢|大家)表示“喜欢”这个词出现在“大家”后面的概率;p(吃|大家,喜欢)表示“吃”这个词出现在“大家喜欢”后面的概率;p(苹果|大家,喜欢,吃)表示“苹果”这个词出现在“大家喜欢吃”后面的概率。把这些概率连乘起来,得到的就是这句话平时出现的概率。如果这个概率特别低,说明这句话不常出现,那么就不算是一句自然语言,因为在语料库里面很少出现。如果出现的概率高,就说明是一句自然语言。常用的语言模型都是在近似地求?P(wt|w1,w2,…,wt?1)。比如n-gram模型就是用?P(wt|wt?n+1,…,wt?1)?近似表示前者。N-pos先对词进行了词性分类123模型与方法基本概念实际应用目录Word2VecGoogle的Mikolov在2013年推出了一款计算词向量的工具word2vec作为神经概率语言模型的输入,其本身其实是神经概率模型的副产品,是为了通过神经网络学习某个语言模型而产生的中间结果。具体来说,“某个语言模型”指的是“CBOW”和“Skip-Gram”。具体学习过程会用到两个降低复杂度的近似方法——HierarchicalSoftmax或NegativeSampling。CBOW:ContinuousBag-of-WordsSkip-Gram:ContinuousSkip-GramModelHierarchicalSoftmaxNegativeSampling两个语言模型两种优化方法CBOWandSkip-Gram初始化值是零向量,叶节点对应的单词的词向量是随机初始化的。CBOW的目标是根据上下文来预测当前词语的概率Skip-Gram恰好相反,它是根据当前词语来预测上下文的概率。这两种方法都利用人工神经网络作为它们的分类算法。起初,每个单词都是一个随机N维向量,经过训练之后,利用CBOW或者Skip-Gram方法获得每个单词的最优向量。
CBOW模型结构输入层是上下文的词语的词向量,是CBOW模型的一个参数。训练开始的时候,词向量是个随机值,随着训练的进行不断被更新。当模型训练完成之后可以获得较为准确的词向量。SoftmaxO(|V|)时间复杂度:O(log2(|V|))CBOW模型结构——霍夫曼树在训练阶段,当给定一个上下文,要预测词(Wn)的时候,实际上知道要的是哪个词(Wn),而Wn是肯定存在于二叉树的叶子节点的,因此它必然有一个二进制编号,如“010011”,那么接下来我们就从二叉树的根节点一个个地去遍历,而这里的目标就是预测这个词的二进制编号的每一位.即对于给定的上下文,我们的目标是使得预测词的二进制编码概率最大。形象地说,我们希望在根节点,词向量和与根节点相连经过logistic计算得到的概率尽量接近0(即预测目标是bit=1);在第二层,希望其bit是1,即概率尽量接近1……这么一直下去,我们把一路上计算得到的概率相乘,即得到目标词Wn在当前网络下的概率(P(Wn)),那么对于当前这个sample的残差就是1-P(Wn)。于是就可以SGD优化各种权值了。Skip-Gram模型结构cd吃ba小明 喜欢 吃 甜甜 的 苹果123实际应用基本概念模型与方法目录词相似度训练数据集:经过分词后的新闻数据,大小184MB查看中国,钓鱼岛,旅游,苹果几个词语的相似词语如下所示下一张目录***************
您可能关注的文档
- 书香校园申报表.xls
- 卫生院化验室绩效考核评分标准及评分细则.xls
- 学校及周边交通安全隐患排查表.xls
- 院感卫生院质控检查标准.xls
- 机械装备成品出入库作业流程.xlsx
- 加减法口诀表-10以内数的加法与分解.xlsx
- 书香校园评估标准.xlsx
- 重大火灾隐患(直接判定)排查表2025版.xlsx
- 重大火灾隐患(综合判定)排查表2025版.xlsx
- 3月电气缺陷分析情况.xls
- 煤矿运输专业培训课件.ppt
- 2026年中考语文一轮复习:语言基础+课件.pptx
- 辽宁《岩土工程勘察规程》.pdf
- 统编版道德与法治三年级下册4.13万里一线牵 第二课时 课件 (共24张PPT).pptx
- 统编版七年级语文上册教学课件《狼》.pptx
- 习作 这儿真美 课件-2025-2026学年语文三年级上册统编版.pptx
- 统编版五年级上册习作 我想对您说 优质课件(共52张PPT).pptx
- 统编版语文八年级上册第四单元整本书阅读《红岩》 课件(共37张PPT).pptx
- 湘教版(2024)地理 八年级上册 第一章第二节 中国的行政区划 课件(19张PPT).pptx
- 细胞通过分裂产生新细胞课件2025-2026学年人教版生物七年级上册.pptx
最近下载
- 2025年四川省国家工作人员法治素养测评(卷一).docx
- 办公室6S管理检查考核评分标准表.docx VIP
- 冲压模具设计课程设计报告书.doc VIP
- 华辰芯光半导体有限公司光通讯和激光雷达激光芯片FAB量产线建设项目环评资料环境影响.docx VIP
- 股市趋势技术分析—图解(完成).doc VIP
- 新课标解读课件.pptx VIP
- 《走月亮》试讲逐字稿教师招聘面试板书设计.docx VIP
- 广州大学2021-2022学年第1学期《数据结构》期末考试试卷(A卷)含标准答案.docx
- 2025年度安全生产目标、管理办法及任务分解.docx VIP
- 初中数学:2024-2025 学年北京市通州区七年级(上)期末数学试卷(含参考答案).pdf VIP
原创力文档


文档评论(0)