中文分词原理和应用.pptxVIP

  • 3
  • 0
  • 约2.55千字
  • 约 32页
  • 2018-06-21 发布于上海
  • 举报
中文分词原理和应用

目录010203搜索引擎工作原理分词原理 分词应用04分类类目一、搜索引擎工作原理爬行抓取网页做第一次处理排名二、分词原理1、中文分词的几种方法和原理2、搜索引擎如何识别关键词3、搜索引擎如何判别网页重复内容4、搜素引擎通过语义分析判断文章内容的相关性三、分词应用1、标题的原则和顺序2、怎样写一篇符合搜索引擎口味的软文1.1搜索引擎工作原理简介1、爬行抓取网页2、做第一次处理3、排名1.1.1、爬行抓取网页搜索引擎放出大量的程序(蜘蛛)爬行、抓取网页,在抓取网页的时候会有第一次判断网页的内容质量,根据页面的更新时间、权重等,不好的内容在第一次就不会抓取;1.1.2、预先做好页面和关键词的处理1、提取文字2、中文分词(今天主题)3、删除文字:把诸如“的、地、得、啊和网页主题无关的文字,比如网页地下的版权声明;4、删除重复页面:“伪原创、直接复制”转载过来的没有意义页面内容;5、正向扫描和反向扫描;6、计算页面链接关系和其他数据(内链和外链数量、质量;页面被分享次数,转载次数,用户浏览停留的时间,页面访问速度等)1.1.2 图 正面扫描和反面扫描1.3排名1、当用户输入一个刚好是已经存在了的词条,那么就会直接调用数据库2、当用户输入的一个关键词刚好数据库没有现成的话,就需要分词,(需要分词的网页在和其他页面同等的条件下会对排名不利,后面有案例);3、查询匹配文件4、创建大概是排在前1

文档评论(0)

1亿VIP精品文档

相关文档