网站大量收购独家精品文档,联系QQ:2885784924

07-【数据猿公开课】华院数据尹相志:自然语言处理-0825.pdf.pdf

07-【数据猿公开课】华院数据尹相志:自然语言处理-0825.pdf.pdf

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
本文档是精心选出来的精华文档,对您的生活和学习将有所帮助!

自然语言处理 迈向分析非结构化数据的第一步 华院数据 尹相志 卷积神经网络Convolutional Neural Network 然而中文若要使用现行深度学习技术 同样是使用卷积神经网络 解决,估计需要2万*2万以上… 相较于围棋19*19方阵 脸书FastText使用了70*70的方阵来解决英文 中文为何如此困难 惊人的汉字数 中日韩统一表意文字 20,928 能够依赖上下文产生相反语义 衣服太厚 技术太厚 无须约定成俗即可创造新字以及赋予词性 歧义 — 中文最难解的问题 结婚和尚未结婚的人 冬天:能穿多少穿多少; 夏天:能穿多少穿多少。 剩女产生的原因有两个: 一是谁都看不上, 二是谁都看不上。 从分词开始…. 问题的本质就是一个四元的分类模型 B : 一个词的开头 M : 一个词的中间 E : 一个词的结尾 S : 单词 B E S B E B E S S 结婚 和 尚未结婚 的 人 B E B E B M E S S 结婚 和尚 未结婚 的 人 借助隐马可夫(HMM) • 主要是在探讨序列状态变化的算法 • 隐含状态BMES ,观察状态为 「字」 • 初始状态只可能是 「B,S」 8 然而中文是有许多潜规则的 春暖花开为常用短语,根据后 方「的」的本质上是形容词后 迭字不影响对于「孤 缀,因此整合推断为形容词 单」一字的匹配。 根据同音以及句法 推断炒鸡应是副词 「难吃」在名词前且 「超级」的代用字 有「的」做为后缀, 故推断为形容词 然后文本分析如何应用呢…? Word Cloud LDA 现有方法未必能将语言的力量释放 • 词云看似酷炫,但是实质上的决策价值并不高 , 而且容易造成审美疲劳 • LDA主题模型本质上透过聚类技术,需要指定 K值 ,而且一个文本只能属于一个聚类。同时 只考虑词的共存性,没有考虑上下文 • LDA仍旧无法提供直观的策略,需要耗费人力 去理解 这才是能被企业接受的算法 电商评论的结构 外观漂亮 ,配置不错 ,运行起来不卡速度快。屏幕完美没有亮点 ,感觉物有所值。 谢谢老板送的电脑包和鼠标! • 我们将评论的观点分为(产品/服务)体验与情感 • 体验通常是由三元组的结构构成˙ – 主语 (可能是名词、动名词、名词子句…) – 程度语(通常是副词,也可能没有,否定是最强烈的程度语) – 修饰语(可能是形容词、形容词子句…) 颜色比我想象中要好很多 只是系统是win 10这个不是很习惯 中文的恐怖之处… 同义字处理的一种模式

文档评论(0)

jgx3536 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6111134150000003

1亿VIP精品文档

相关文档