搜索引擎的分词机制.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎的分词机制

搜索引擎的分词机制木木长官〃長官"(4651130) 14:57:53 今天我来给大家讲下 搜索引擎的分词机制 〃長官"(4651130) 14:57:58 准备下 马上就开始 〃長官"(4651130) 15:00:36 在搜索引擎中 用户提交的搜索内容会被后台提交到数据库与数据库中的数据来对比,从中调出相应的数据。(这些东西做程序的可能了解)与普通网站的站内搜索类似 〃長官"(4651130) 15:01:38 下面举例: 比如你想要搜索的是 “京珠高速的火车出轨并且无一人伤亡 天上也掉下冰雹”这个语句的时候 〃長官"(4651130) 15:02:40 如果搜索引擎 直接用 你段话与数据库中的数据来对比。肯定搜索不出来任何数据。 因为 这个是我自己随便写的。 〃長官"(4651130) 15:03:26 但是搜索引擎又不能叫客户搜索不到东西,所以他们用到了中文分词 和英文分词 〃長官"(4651130) 15:03:42 今天主要说中文 英文以后在说 〃長官"(4651130) 15:04:50 当它用了分词后,用过动易CMS系统的朋友,应该知道。他们采集后的数据,会把标题分割成2个字一组的关键词。 〃長官"(4651130) 15:04:58 比如:京珠高速的火车出轨并且无一人伤亡 天上也掉下冰雹 〃長官"(4651130) 15:05:55 这个标题 动易的分词机制是这么分:京珠|珠高|高速|速的|的火|火车|车出|出轨|轨并|并且|且无|无一|一人|人伤|伤亡|亡天|天上|上也|也掉|掉下|下冰|冰雹 它把每个字前一个和后一个自动组合,虽然不合理,但是有一定的技术含量在里面。 〃長官"(4651130) 15:06:39 之所以 把词拆分开,就是为了与数据库中的相应数据来对比 〃長官"(4651130) 15:08:10 搜索引擎可以这样做分词(前提是因为数据库中有相应的数据库,还有临时数据库!这些后面有介绍) 〃長官"(4651130) 15:09:03 京珠|高速|的|火车|出轨|并且|无一人|伤亡|天上|也掉|下|冰雹 〃長官"(4651130) 15:09:35 也可以这样分 〃長官"(4651130) 15:10:42 京珠高速|的|火车出轨|并且|无一人|伤亡|天上|也|掉下|冰雹 〃長官"(4651130) 15:11:51 怎么个分词方法是根据搜索引擎的数据库与算发有直接的关系 〃長官"(4651130) 15:12:22 比如 百度搜索引擎 〃長官"(4651130) 15:13:23 这样可以简单的看出他是怎么分的 〃長官"(4651130) 15:13:27 〃長官"(4651130) 15:14:45 京珠高速|的|火车出轨|并且无一|人伤亡|天上|也掉下冰雹 〃長官"(4651130) 15:16:02 京|珠|高速|的|火车|出轨|并且|无|一人|伤亡|天上|也掉下冰雹 〃長官"(4651130) 15:17:22 下面来看看百度搜索引擎中的分词的理解与实践 〃長官"(4651130) 15:17:48 〃長官"(4651130) 15:18:15 大家可以看到 这个是百度中的分法(不能一概而论) 〃長官"(4651130) 15:19:07 可以看出 我在上面所规划出的词 〃長官"(4651130) 15:19:10 〃長官"(4651130) 15:16:02 京|珠|高速|的|火车|出轨|并且|无|一人|伤亡|天上|也掉下冰雹 〃長官"(4651130) 15:19:13 这个来` 〃長官"(4651130) 15:19:41 〃長官"(4651130) 15:20:01 而第二个呢 〃長官"(4651130) 15:20:08 就与上面有些出入了 〃長官"(4651130) 15:21:08 这些就是在 数据库中 所存的数据 也可以说是字典 〃長官"(4651130) 15:21:17 /s?wd=%BE%A9%D6%E9%B8%DF%CB%D9%B5%C4%BB%F0%B3%B5%B3%F6%B9%EC%B2%A2%C7%D2%CE%DE%D2%BB%C8%CB%C9%CB%CD%F6+%CC%EC%C9%CF%D2%B2%B5%F4%CF%C2%B1%F9%B1%A2cl=3 〃長官"(4651130) 15:21:26 大家可以打开这个地址看一下?? 〃長官"(4651130) 15:21:28 一会在看哦 〃長官"(4651130) 15:23:20 当 这站上的某个页面上出现了我刚才搜索的语句,搜索引擎把他分词,当查寻不到的时候,引擎中还会在把分过的词,或者原句在从新的分词 〃長官"(4651130) 15:23:54 也就是相当于??比如搜索的是某个成语 〃

文档评论(0)

peain + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档