- 1、本文档共33页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文本分类应用
文本分析和弹幕审核技术介绍
达观数据 陈运文
达观数据 创始人CEO
曾担任盛大文学首席数据官、阅文集团数据中心负责人、
腾讯文学高级总监、百度核心技术研发专家
复旦大学计算机系博士和杰出毕业生
达观 提供专业的数据技术服务
达观数据成立于2015年,位于上海市张江高科 ,是上海重点扶
持的高科技创新企业,也是著名投资机构真格基金旗下企业
达观数据拥有领先的人工智能、机器学习技术,能自动挖掘数据隐
藏的规律 ,识别文字的语义内容,并进行信息的抓取、搜索、推荐
等专业技术服务。
达观核心团队来自腾讯、盛大、阿里、百度等国内一线互联网企
业数据部门,具有丰富的研发经验和众多成功应用案例
直播弹幕:新形式的互动娱乐方式
自然语言处理是文本挖掘的基础
自然语言处理(Natural Language
Processing ,NLP )是计算机科学领域与人
工智能领域中的一个重要方向
它研究能实现人与计算机之间用自然语言进
行有效通信的各种理论和方法,能够利用计
算机为工具对人类特有的书面形式和口头形
式的语言进行各种类型处理和加工的技术。
基础知识
概率,最大似然估计,条件概率,贝叶斯法则,二项式分布,联合概率分布和
条件概率分布等知识是nlp研究的基础
信息熵 ,又称为自信息(self-information ),描述一个随机变量的不确定性
的数量。一个随机变量的熵越大,它的不确定性越大,正确估计其值的可能性
越小,越不确定的随机变量越需要更大的信息量用以确定其值。
如英语有26个字母,假如每个字母在文章中出现次数平均的话,每个字母的信
息量为4.7。而汉字常用的有2500个,假如每个汉字在文章中出现次数平均的
话,每个汉字的信息量为11.3。
语言模型
语言模型(language mode )在基于统计模型的语音识别,机器翻译,汉语
自动分词和句法分析中有着广泛的应用。
一个语言模型构建字符串的概率分布p(W) ,假设p(W)是字符串作为句子的概
率
n元语法模型:根据马尔科夫假设,一个词只和他前面n-1个词相关性最高,则
概率由下边的公式计算:
中文分词的主要问题
歧义切分:分词后的结果和原来语句所要表达的意思不相符或差别较大,
在机械切分中比较常见。
例子:结婚的和尚未结婚的人
正确:结婚/的/和/尚未/结婚/的/人
错误:结婚/的/和尚/未/结婚/的/人
未登录词:指的是词没有在词典中出现,比如一些新的网络词汇: “网
红”,“走你” ;一些未登录的人名,地名 ;一些外语音译过来的词等
等。简单的case可以通过加词典解决,但是随着字典的增大,可能会引
入新的bad case ,并且系统的运算复杂度也会增加。
基于词典的机械切分分词方法
原理:本质上就是字符串匹配的方法,将一串文本中的文字片段和已有
的词典进行匹配,如果匹配到,则此文字片段就作为一个分词结果。
常见方法 :匹配法(正向最大匹配方法,逆向最大匹配法,双向最少切
分法);全切分路径选择法(n最短路径方法,n元语法模型法)。
n最短路径方法:将所有的切分结果组成有向无环图,每个切词结果作
为一个节点,词之间的边赋予一个权重,最终找到权重和最小的一条路
径作为分词结果。
n元语法模型法 :根据n元语法模型,路径构成时会考虑词的上下文关系,
根据语料库的统计结果,找出构成句子最大模型概率。一般情况下,使
用unigram和bigram的n元语法模型的情况较多。
基于n元语法模型的分词方法
基于n元语法模型的分词方法
基于n元语法模型的分词方法
基于n元语法模型的分词方法
基于n元语法模型的分词方法
基于n元语法模型的分词方法
序列标注问题的常见模型HMM和CRF
HMM (Hidden Markov Model )
隐马尔科夫模型,基本的思想就是根据
观测值序列找到真正的隐藏状态值序列。
在中文分词中,一段文字的每个字符可
以看作是一个观测值,而这个字符的词
位置label (BEMS )可以看作是隐藏的
状态。
基于序列标注的分词方法
将文本中每个字按在词中的位置进行标注,常用BMES标记
B ,Begin ,表
您可能关注的文档
- wcm演示说明.doc
- 有机高分子功能材料 7.ppt
- i型超敏反应的特点.ppt
- hipp(喜宝)奶粉商品目录.pdf
- 聚焦:昆士兰牛肉行业展望 - national australia bank.pdf
- 红瓶猪笼草.pdf
- 非晶钛合金ti60zr10fe5si9nb5mo11的组织及生物相容性研究.pdf
- 花生过敏原蛋白ara h 6基因克隆和原核表达.pdf
- ahlyn@tomcom [胚胎在子宫内发育].ppt
- 白藜芦醇二聚体与眼镜蛇神经毒素的作用机制.pdf
- 人教版九年级英语全一册单元速记•巧练Unit13【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit9【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit11【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit14【单元测试·提升卷】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit8【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit4【单元测试·提升卷】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit13【单元测试·基础卷】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit7【速记清单】(原卷版+解析).docx
- 苏教版五年级上册数学分层作业设计 2.2 三角形的面积(附答案).docx
- 人教版九年级英语全一册单元速记•巧练Unit12【单元测试·基础卷】(原卷版+解析).docx
文档评论(0)