ir讲义20132分析处理剖析.pptVIP

  1. 1、本文档共49页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SIGHAN 词汇分析与处理 字符处理 数字、连字符、标点符号、外文字母…… 词汇处理 Steming Stopwords 分词 词性标注 词性标注 我明天去北京 我/r 明天/nt 去/v 北京/ns 兼类 我设计的是个程序 我的设计是个程序 汉语兼类词统计 詹卫东摘自《现代汉语语法信息词典》1997年版 兼类数 兼类词数 百分比 例词及词性标记 5 3 0.01% 和:c-n-p-q-v 4 20 0.04% 光:a-d-n-v 3 126 0.23% 画:n-q-v 2 1475 2.67% 锁:n-v 合计 1624 2.94% 总词数:55191 和huò量 用于时间,相当于“会儿” [moment]看一和 用于洗东西或煎中药换水,相当于“次”、“道” [time]衣裳已洗四和 光动发扬光大 英语兼类词统计(Brown Corpus) 兼类数 兼类词数 7 1 6 2 5 12 4 61 3 264 2 3760 2~7 4100 1 35340 如何标注词性? 套用一个合适的模型,剩下的问题交给数学家解决 隐马尔可夫模型(HMM) 马尔可夫模型 马尔可夫模型 t i X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 t h e t i t i p 有限视野:X6的值仅与前一个(X5)有关 无限视野:X6的值仅与前面所有的有关 马尔可夫模型 t i X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 t h e t i t i p 时间不变性:任何时候t后面出现i的概率都相等 非确定性有限状态自动机 非确定性有限状态自动机 副词 冠词 动词 数词 形容词 名词 隐马尔可夫模型 副词 冠词 动词 数词 形容词 名词 a good teacher 不可见 可见 隐马尔可夫模型 观测值1 观测值2 观测值3 不可见 可见 隐马尔可夫模型 观测值1 观测值2 观测值3 不可见 可见 隐马尔可夫模型 副词 冠词 动词 数词 形容词 名词 a good teacher 不可见 可见 隐马尔可夫模型 隐马尔可夫模型 分析处理 检索系统的一般模式 网页 互联网 匹配 检索结果 用户需求 网页采集 分 析 处 理 建立索引 索引库 格式分析与转换 编码分析与转换 词汇分析与处理 结构分析(文本分割) 类别分析(文本分类) 分析处理 格式分析与转换 编码分析与转换 词汇分析与处理 结构分析(文本分割) 类别分析(文本分类) 格式分析与转换 输入:HTML, WORD, PDF, PS …… 目标:转换为纯文本 HTML: HTML2TXT PDF: XPDF PS: Ps2Txt WORD: CatDoc …… 编码分析与转换 中文 GB BIG5 Unicode 词汇分析与处理 字符处理 数字、连字符、标点符号、外文字母…… 词汇处理 Steming Stopwords 分词 词性标注 Steming 性、数、格 获得原形 查表法 后缀法 软件实现2:词形还原 输入 任意一个英文单词 输出 该单词的原形 要求 尽量全面还原数、格等变形 1人完成 Stopwords a, an, the, … of, to, … and, or, … 的、地、得 了、着、过 to be or not to be X 分词 西文 Mr. Li I’ d better … 中文 我知道你不知道我知道你不知道我知道你不知道 我知道你不知道我知道你不知道我知道你不知道 我知道 你不知道 我知道 你不知道我知道 你不知道 我知道你 不知道我 知道你不知道我 知道你不知道 我 知道你不知道我知道 你不知道我知道你不知道 分词对中文搜索引擎的影响 Google 6/20 “瑞星以技术和服务开拓网络安全市场” “陈慧琳《心口不一》化妆和服装自己包办” 百度 14/20 “商品和服务实行明码标价” “青岛东和服装设备” 中搜 20/20 搜索引擎结果中的错误,是由于分词的不准确造成的。 中文分词的准确度,对搜索引擎结果相关性和准确性有相当大的影响。 无关网页从哪里来? 互联网 匹配 瑞星以技术 和服务开拓 网络安全市场 用户需求 网页采集 分 析 处 理 建立索引 索引库 检索结果 索引策略 ……技术和服务…… 按字 技 术 和 服 务 按二元语法 技术 术和 和服 服务 按词 技术 和 服务 中文分词 分词是将连续的字序列按照一定的规范重新组合成词序列的过程 瑞星以技术和服务开拓网络安全市场 瑞星 / 以 / 技术 / 和 / 服务 / 开拓 / 网络

文档评论(0)

ee88870 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档