文本分类应用.pdf

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文本分类应用

文本分析和弹幕审核技术介绍 达观数据 陈运文 达观数据 创始人CEO 曾担任盛大文学首席数据官、阅文集团数据中心负责人、 腾讯文学高级总监、百度核心技术研发专家 复旦大学计算机系博士和杰出毕业生 达观 提供专业的数据技术服务 达观数据成立于2015年,位于上海市张江高科 ,是上海重点扶 持的高科技创新企业,也是著名投资机构真格基金旗下企业 达观数据拥有领先的人工智能、机器学习技术,能自动挖掘数据隐 藏的规律 ,识别文字的语义内容,并进行信息的抓取、搜索、推荐 等专业技术服务。 达观核心团队来自腾讯、盛大、阿里、百度等国内一线互联网企 业数据部门,具有丰富的研发经验和众多成功应用案例 直播弹幕:新形式的互动娱乐方式 自然语言处理是文本挖掘的基础 自然语言处理(Natural Language Processing ,NLP )是计算机科学领域与人 工智能领域中的一个重要方向 它研究能实现人与计算机之间用自然语言进 行有效通信的各种理论和方法,能够利用计 算机为工具对人类特有的书面形式和口头形 式的语言进行各种类型处理和加工的技术。 基础知识 概率,最大似然估计,条件概率,贝叶斯法则,二项式分布,联合概率分布和 条件概率分布等知识是nlp研究的基础 信息熵 ,又称为自信息(self-information ),描述一个随机变量的不确定性 的数量。一个随机变量的熵越大,它的不确定性越大,正确估计其值的可能性 越小,越不确定的随机变量越需要更大的信息量用以确定其值。 如英语有26个字母,假如每个字母在文章中出现次数平均的话,每个字母的信 息量为4.7。而汉字常用的有2500个,假如每个汉字在文章中出现次数平均的 话,每个汉字的信息量为11.3。 语言模型 语言模型(language mode )在基于统计模型的语音识别,机器翻译,汉语 自动分词和句法分析中有着广泛的应用。 一个语言模型构建字符串的概率分布p(W) ,假设p(W)是字符串作为句子的概 率 n元语法模型:根据马尔科夫假设,一个词只和他前面n-1个词相关性最高,则 概率由下边的公式计算: 中文分词的主要问题 歧义切分:分词后的结果和原来语句所要表达的意思不相符或差别较大, 在机械切分中比较常见。 例子:结婚的和尚未结婚的人 正确:结婚/的/和/尚未/结婚/的/人 错误:结婚/的/和尚/未/结婚/的/人 未登录词:指的是词没有在词典中出现,比如一些新的网络词汇: “网 红”,“走你” ;一些未登录的人名,地名 ;一些外语音译过来的词等 等。简单的case可以通过加词典解决,但是随着字典的增大,可能会引 入新的bad case ,并且系统的运算复杂度也会增加。 基于词典的机械切分分词方法 原理:本质上就是字符串匹配的方法,将一串文本中的文字片段和已有 的词典进行匹配,如果匹配到,则此文字片段就作为一个分词结果。 常见方法 :匹配法(正向最大匹配方法,逆向最大匹配法,双向最少切 分法);全切分路径选择法(n最短路径方法,n元语法模型法)。 n最短路径方法:将所有的切分结果组成有向无环图,每个切词结果作 为一个节点,词之间的边赋予一个权重,最终找到权重和最小的一条路 径作为分词结果。 n元语法模型法 :根据n元语法模型,路径构成时会考虑词的上下文关系, 根据语料库的统计结果,找出构成句子最大模型概率。一般情况下,使 用unigram和bigram的n元语法模型的情况较多。 基于n元语法模型的分词方法 基于n元语法模型的分词方法 基于n元语法模型的分词方法 基于n元语法模型的分词方法 基于n元语法模型的分词方法 基于n元语法模型的分词方法 序列标注问题的常见模型HMM和CRF HMM (Hidden Markov Model ) 隐马尔科夫模型,基本的思想就是根据 观测值序列找到真正的隐藏状态值序列。 在中文分词中,一段文字的每个字符可 以看作是一个观测值,而这个字符的词 位置label (BEMS )可以看作是隐藏的 状态。 基于序列标注的分词方法 将文本中每个字按在词中的位置进行标注,常用BMES标记 B ,Begin ,表

文档评论(0)

wujianz + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档