搜索引擎中文分词原理2.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎中文分词原理-2 如何分配中文分词 基于字符串匹配的中文分词 举例-两者之间的区别 基于字符串的分词方法 采用的最短分词方法,所以需要根据用户体验的方式来做,用户大量搜索化妆品代理方面的问题, 基于统计的分词方法 相邻的字出现的越多就越可能构成一个词, 优点:用于系统自动识别的新词 例如:持美,化妆,化妆品 代理,招商 缺点:对常用词的识别精度差 通过计算机来识别人的句子还没有真正的实现到一定的程度,也就是说,还是停留在简单分词的阶段,一段的句子是不能够真正识别的。 所给出的匹配词是持美化妆,那么百度搜索引擎所给出的词是把词分开了,到了最后没有那个词,直接把词分开,成为字,也就是说,从技术上来说,是每一个字,每一个字的去调整算法,调出数据的。 分词技术分析 分词技术分析 百度分词采取了至少两个词典,一个是普通词典,一个是专业词典(人名,地名,影视明星,书名,影视剧等)。而且是专用词典先切分,然后将剩余的片段交由普通词典来切分。 分词技术分析 余下下周讲解 化妆品招商网推广部提供【5666.tv】 宝山壁画 宝山壁画是引人注目的昂贵文物。此壁画发现于阿鲁科尔沁旗东沙布乡境内。1994年列为“全国十大考古新发现”之一。宝山壁画中最引人注目的是《杨贵妃教鹦鹉图》。该画高0.7米、宽2.3米,用于笔重彩绘制,最突出的表现了 晚唐风格。唐代擅长绘贵妇仕女的大师周昉绘制了《杨贵妃教鹦鹉图》,不仅享誉中原,而且还影响全国各地。发现于阿旗宝山古墓里的这幅画,就是契丹人聘请中原画家按照周氏风格绘制的, 技法深得周氏画风的真传。在唐人真迹稀如星风的今天,能够从中完整了解唐代人物画的杰出成就,堪称美术史研究的辛事。这幅壁画现今保存在阿鲁科尔沁旗博物馆,历经千年,恍如新绘,是该馆的镇馆之宝。 欢迎大家观看! 意思:按照一定的策略将待分析的汉字串与一个充分大的词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功 正向最大匹配法 如何/代理/化妆品 反向最大匹配法 如何/代理/化妆/品 最短路径分词法 如何/代理化妆品 5 1 2 3 4 最大匹配 最大反向匹配 搜索引擎实际匹配 结果 如果正向和反向结果不一致,那么就会采用最短路径方式 首先查询专用词典(人名、部分地方等)将专有名称切除,剩下 的部分采用双向分词策略,如果两者切分结果相同,说明没有什 么歧义,直接输入分词结果,如果不一致,则输出最短路径的 那个结果,如果最短路径的那个长度相同,那么就选择单字输出 如果单字也相同,那么就输出正向匹配的。 * *

文档评论(0)

文档分享 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档