文本信息处理预备知识.ppt

  1. 1、本文档共72页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文本信息处理预备知识

向量的单位化 * 实验数据 * ?训练集Training Set – 用来获得模型参数 ?测试集Test Set –从训练集以外独立采样 –反映系统面对真实世界的处理能力 ?封闭测试与开放测试 ?交叉验证Cross-Validation –将数据集分为k个子集 –用k-1个子集作训练集,1个子集作测试集,然后k 次交叉验证 ?公开测评数据集 -LDC, Chinese-LDC 性能评价 * 性能评价 * 编程工具 编程语言:Python, java, C++ 编程工具:NLTK * 什么是Python? * Python的特点 历史短(不到10年),但应用广泛 –大范围应用,尤其在AI和Web领域 非常容易学习 –很多学校用把Python作为入门语言 编程方便 –相比C、C++、Java代码短得多 容易阅读与维护 –类似于自然语言和数学公式的语法 * “Hello World!” * NLTK工具 NLTK:Natural Language Toolkit NLTK是用Python实现的一套自然语言处理软件工具 NLTK包括: –与NLP相关的基本数据类型 –NLP的标准函数接口:切词、标注、句法分析等 –NLP中常见任务的具体实现 –NLP任务演示(句法分析、组块分析、聊天机器人) –详尽的文档、教程与参考书目 –随工具包发布的数据:词典、语料库等等 * Thanks! Q/A E-mail: zhangchz@ * 信息论基础 * 联合熵(Joint Entropy) 信息论基础 * 条件熵(Conditional Entropy) 信息论基础 * 信息论基础 * 例: 假设(X, Y)服从如下联合分布: 请计算H(X)、H(Y) 、H(X|Y)、H(Y|X) 和H(X, Y)各是多少? 信息论基础 * 信息论基础 * 信息论基础 * 信息论基础 * 信息论基础 * 相对熵(Relative Entropy, 或Kullback-Leibler divergence, KL 距离) 两个概率分布p(x) 和q(x) 的相对熵定义为: (18) 信息论基础 * 对熵常被用以衡量两个随机分布的差距。当两个随机分布相同时,其相对熵为0。当两个随机分布的差别增加时,其相对熵也增加。 信息论基础 交叉熵(Cross Entropy) * (19) 信息论基础 困惑度(Perplexity) * (20) 信息论基础 互信息(Mutual Information) * 如果(X, Y) ~ p(x, y),X, Y之间的互信息 I(X; Y)定义为: I (X; Y) = H(X) – H(X | Y) (21) (22) 信息论基础 * 信息论基础 应用:中文分词问题 * 利用互信息值估计两个汉字结合的强度: 互信息值越大,表示两个汉字之间的结合越紧密,越可能成词。反之,断开的可能性越大。 信息论基础 * 信息论基础 * 信息论基础 * 噪声信道模型(Noisy Channel Model) 在信号传输的过程中都要进行双重性处理:一方面要通过压缩消除所有的冗余,另一方面又要通过增加一定的可控冗余以保障输入信号经过噪声信道后可以很好的恢复原状。信息编码时要尽量占用少量的空间,但又必须保持足够的冗余以便能够检测和校验错误。接收到的信号需要被解码使其尽量恢复到原始的输入信号。 噪声信道模型的目标就是优化噪声信道中信号传输的吞吐量和准确率,其基本假设是一个信道的输出以一定的概率依赖于输入。 信息论基础 * 信息论基础 * 信息论基础 * (23) 信息论基础 * (24) 信息论基础 * 信息论基础 * (25) 信息论基础 * 信息论基础 * 集合论基础 * 集合论基础 * 线性代数基础 * ? 向量空间模型 线性代数基础 * 向量的内积 * 向量的长度 * ⑵ 向量长度的性质 文本信息处理 章成志 Department of Information Management, School of Economics and Management, Nanjing University of Science and Technology E-Mail: zhangchz@ Sina weibo: @章成志 Blog: /u/timy * 预备知识 预备知识 概率统计基

您可能关注的文档

文档评论(0)

2232文档 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档