- 3
- 0
- 约2.55千字
- 约 32页
- 2018-06-21 发布于上海
- 举报
中文分词原理和应用
目录010203搜索引擎工作原理分词原理 分词应用04分类类目一、搜索引擎工作原理爬行抓取网页做第一次处理排名二、分词原理1、中文分词的几种方法和原理2、搜索引擎如何识别关键词3、搜索引擎如何判别网页重复内容4、搜素引擎通过语义分析判断文章内容的相关性三、分词应用1、标题的原则和顺序2、怎样写一篇符合搜索引擎口味的软文1.1搜索引擎工作原理简介1、爬行抓取网页2、做第一次处理3、排名1.1.1、爬行抓取网页搜索引擎放出大量的程序(蜘蛛)爬行、抓取网页,在抓取网页的时候会有第一次判断网页的内容质量,根据页面的更新时间、权重等,不好的内容在第一次就不会抓取;1.1.2、预先做好页面和关键词的处理1、提取文字2、中文分词(今天主题)3、删除文字:把诸如“的、地、得、啊和网页主题无关的文字,比如网页地下的版权声明;4、删除重复页面:“伪原创、直接复制”转载过来的没有意义页面内容;5、正向扫描和反向扫描;6、计算页面链接关系和其他数据(内链和外链数量、质量;页面被分享次数,转载次数,用户浏览停留的时间,页面访问速度等)1.1.2 图 正面扫描和反面扫描1.3排名1、当用户输入一个刚好是已经存在了的词条,那么就会直接调用数据库2、当用户输入的一个关键词刚好数据库没有现成的话,就需要分词,(需要分词的网页在和其他页面同等的条件下会对排名不利,后面有案例);3、查询匹配文件4、创建大概是排在前1
您可能关注的文档
最近下载
- 第1章绪论《网络与新媒体概论》教学课件.ppt VIP
- 2024年天津市河西区八年级生物学模拟试卷 .pdf VIP
- 退变性脊柱侧凸的流行病学特征与趋势分析.docx VIP
- 2025年事业单位笔试-贵州-贵州医学检验专业知识(医疗招聘)历年参考题典型考点含答案解析.docx VIP
- 宁夏高校教师资格考试应知应会手册--高等教育学部分试题.pdf VIP
- 5100-ICP-OES-现场培训教材.pdf VIP
- 利华益集团招聘(236名)笔试备考试题及答案解析.docx VIP
- 基于数据挖掘的单晶硅等径生长“掉苞”预测模型构建与实践.docx VIP
- 综合性学习 以和为贵.pptx VIP
- 中医疫病学课件第二版.pptx VIP
原创力文档

文档评论(0)