文本分类应用.pdf

下载文档 降价啦

11
0
约5.43千字
约 33页
2017-09-02 发布于天津
举报
版权申诉
保障服务

文本分类应用.pdf

1、本文档共33页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

文本分类应用

文本分析和弹幕审核技术介绍达观数据陈运文达观数据创始人CEO 曾担任盛大文学首席数据官、阅文集团数据中心负责人、腾讯文学高级总监、百度核心技术研发专家复旦大学计算机系博士和杰出毕业生达观提供专业的数据技术服务达观数据成立于2015年，位于上海市张江高科，是上海重点扶持的高科技创新企业，也是著名投资机构真格基金旗下企业达观数据拥有领先的人工智能、机器学习技术，能自动挖掘数据隐藏的规律，识别文字的语义内容，并进行信息的抓取、搜索、推荐等专业技术服务。达观核心团队来自腾讯、盛大、阿里、百度等国内一线互联网企业数据部门，具有丰富的研发经验和众多成功应用案例直播弹幕：新形式的互动娱乐方式自然语言处理是文本挖掘的基础自然语言处理（Natural Language Processing ，NLP ）是计算机科学领域与人工智能领域中的一个重要方向它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法，能够利用计算机为工具对人类特有的书面形式和口头形式的语言进行各种类型处理和加工的技术。基础知识概率，最大似然估计，条件概率，贝叶斯法则，二项式分布，联合概率分布和条件概率分布等知识是nlp研究的基础信息熵，又称为自信息（self-information ），描述一个随机变量的不确定性的数量。一个随机变量的熵越大，它的不确定性越大，正确估计其值的可能性越小，越不确定的随机变量越需要更大的信息量用以确定其值。如英语有26个字母，假如每个字母在文章中出现次数平均的话，每个字母的信息量为4.7。而汉字常用的有2500个，假如每个汉字在文章中出现次数平均的话，每个汉字的信息量为11.3。语言模型语言模型（language mode ）在基于统计模型的语音识别，机器翻译，汉语自动分词和句法分析中有着广泛的应用。一个语言模型构建字符串的概率分布p(W) ，假设p(W)是字符串作为句子的概率 n元语法模型：根据马尔科夫假设，一个词只和他前面n-1个词相关性最高，则概率由下边的公式计算：中文分词的主要问题歧义切分：分词后的结果和原来语句所要表达的意思不相符或差别较大，在机械切分中比较常见。例子：结婚的和尚未结婚的人正确：结婚/的/和/尚未/结婚/的/人错误：结婚/的/和尚/未/结婚/的/人未登录词：指的是词没有在词典中出现，比如一些新的网络词汇： “网红”，“走你” ；一些未登录的人名，地名；一些外语音译过来的词等等。简单的case可以通过加词典解决，但是随着字典的增大，可能会引入新的bad case ，并且系统的运算复杂度也会增加。基于词典的机械切分分词方法原理：本质上就是字符串匹配的方法，将一串文本中的文字片段和已有的词典进行匹配，如果匹配到，则此文字片段就作为一个分词结果。常见方法：匹配法（正向最大匹配方法，逆向最大匹配法，双向最少切分法）；全切分路径选择法（n最短路径方法，n元语法模型法）。 n最短路径方法：将所有的切分结果组成有向无环图，每个切词结果作为一个节点，词之间的边赋予一个权重，最终找到权重和最小的一条路径作为分词结果。 n元语法模型法：根据n元语法模型，路径构成时会考虑词的上下文关系，根据语料库的统计结果，找出构成句子最大模型概率。一般情况下，使用unigram和bigram的n元语法模型的情况较多。基于n元语法模型的分词方法基于n元语法模型的分词方法基于n元语法模型的分词方法基于n元语法模型的分词方法基于n元语法模型的分词方法基于n元语法模型的分词方法序列标注问题的常见模型HMM和CRF HMM （Hidden Markov Model ）隐马尔科夫模型，基本的思想就是根据观测值序列找到真正的隐藏状态值序列。在中文分词中，一段文字的每个字符可以看作是一个观测值，而这个字符的词位置label （BEMS ）可以看作是隐藏的状态。基于序列标注的分词方法将文本中每个字按在词中的位置进行标注，常用BMES标记 B ，Begin ，表