- 1、本文档共164页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信 息 内 容 安 全;上节回顾(3);第二章 网络信息内容获取技术;本讲提要;;网络信息发布形式;网络信息量;网络信息类型;网络信息类型;网络信息类型;网络信息类型;网络信息类型;网络信息类型;网络通信信息;;一、网络信息内容获取模型;2.1 网络信息内容获取模型;2.1 网络信息内容获取模型;2.1 网络信息内容获取模型;2.1 网络信息内容获取模型;;网络媒体信息获取原理;网上采集算法;;1.全网信息获取;2.定点信息获取;3.基于主题的信息获取和元搜索;国内元搜索引擎;3.基于主题的信息获取和元搜索;网??媒体信息获取的技术难点;网络通信信息获取方案;;网络通信信息获取方案;本讲提要;二、搜索引擎技术;二、搜索引擎技术;二、搜索引擎技术;二、搜索引擎技术;本讲提要;2.2.1 网上采集算法;2.2.1 网上采集算法;2.2.1 网上采集算法;网络媒体信息获取原理;2.2.1 网上采集算法;1.初始URL集合;2.信息获取;2.信息解析;3.信息解析(HTTP/HTML);4.信息判重;从爬虫的角度对互联网进行划分;爬虫URL抓取策略;深度优先遍历策略;宽度优先遍历策略;反向链接数策略;Partial PageRank策略;OPIC策略;大站优先策略;2.2.1 网上采集算法;本讲提要;2.2.2 排级算法;2.2.2 排级算法;2.2.2 排级算法:PageRank;2.2.2 排级算法:PageRank;2.2.2 排级算法:PageRank;2.2.2 排级算法:PageRank;2.2.2 排级算法:PageRank;2.2.2 排级算法:PageRank;2.2.2 排级算法:PageRank;2.2.2 排级算法:PageRank;PR(PageRank(网页级别)) ;PR(PageRank(网页级别)) ;2.2.2 排级算法:HITS;1. Hub页面与Authority页面 ;1. Hub页面与Authority页面 ;2.2.2 排级算法:HITS;2.2.2 排级算法:HITS;2.2.2 排级算法:HITS;2.2.2 排级算法:HITS 算法;2.2.2 排级算法:HITS 算法;2.2.2 排级算法:HITS 算法;优点:
(1)知识范围扩大。
(2)搜索时部分地考虑了页面内容,挖掘结果科学性大大增强
不仅应用在搜索引擎领域,而且被“自然语言处理”以及“社交分析”等很多其它计算机领域借鉴使用,并取得了很好的应用效果
;存在的问题:
(1)计算效率低,实时性差
与查询相关的算法
(2)“主题漂移”
(3)易被作弊者操纵结果
??????? 作弊者可以建立一个很好的Hub页面,再将这个网页链接指向作弊网页,可以提升作弊网页的Authority得分
(4)结构不稳定
????????在原有的“扩充网页集合”内,如果添加删除个别网页或者改变少数链接关系,则HITS算法的排名结果就会有非常大的改变。
;HITS算法与PageRank算法比较;HITS算法与PageRank算法比较;HITS算法与PageRank算法比较;HITS算法与PageRank算法比较;网页排名;本讲提要;2.2.3 搜索引擎与垃圾信息关系;2.2.3 搜索引擎与垃圾信息关系;Bernard J. Jansen和Amanda Spink的研究结果显示,大约80%的用户只需要搜索结果前3页。为了让广大的网络用户能够看到自己的页面,网站管理者和网页制作者就想方设法让其站点和页面变得有名,以期用户在进行相关内容查询时,目标网页排在结果集的最前面。为此,搜索引擎优化(Search Engine Optimization)应运而生。;搜索引擎优化(Search Engine Optimization)
搜索引擎优化师(Search Engine Optimizer, SEOer)
利用工具或其他手段,使目标网站符合搜索引擎的搜索规则,从而获得较好的排名;2.2.3 搜索引擎与垃圾信息关系;2.2.3 搜索引擎与垃圾信息关系;如何提高PR;如何提高PR;影响PR的因素;提高PR的方法;提高PR的方法;2.2.3 搜索引擎与垃圾信息关系;本讲提要;2.3.1 数据挖掘技术历程;2.3.1 数据挖掘技术历程;2.3.1 数据挖掘技术历程;本讲提要;2.3.2 Web挖掘技术;2.3.2 Web挖掘技术;2.3.2 Web挖掘技术;2.3.2 Web挖掘技术;本讲提要;2.3.3 Web文本挖掘技术;2.3.3 Web文本挖掘技术;本讲提要;四、信息推荐技术;四、信息推荐技术;;四、信息推荐技术;四、信息推荐技术——应用;本讲提要;2.4.1 信息推荐概念和形式化定义;2.4.1 信息推荐概
您可能关注的文档
- 统计学的基本概念与研究技巧.ppt
- 统计学的性质、特点和发展.ppt
- 统计学的研究对象和分科.ppt
- 统计学相关剖析与回归剖析.ppt
- 统计学讲义之抽样估计.ppt
- 统计工具和新七种工具.ppt
- 统计工具在质量剖析中的应用讲义.ppt
- 统计工具在质量控制中的应用讲义.ppt
- 统计技巧基础知识-直方图与散布图.ppt
- 统计技巧基础知识培训教材.ppt
- 2022-2023学年山东省临沂市蒙阴县实验中学联考数学试题试卷含解析.doc
- 2022-2023学年安徽舒城桃溪中学高考适应性测试(3月1日)数学试题含解析.doc
- 2022-2023学年安徽省青阳县第一中学高三第五次月考数学试题试卷数学试题含解析.doc
- 牛呼吸道疾病综合征病原PCR检测技术规范.pdf
- 大庆市野生鸟类疫源疫病监测技术规范.pdf
- fresh线性代数作业解决问题.pdf
- 005a1630模拟电子技术基础教学大纲.pdf
- 2022-2023学年安徽省阜阳市临泉县第一中学高三第二次高考模拟考试数学试题试卷含解析.doc
- 2022-2023学年山东省临沂市兰陵县第一中学高三5月联考数学试题含解析.doc
- samsung专有内容可能会更改electrical part list电气零件清单.pdf
1亿VIP精品文档
相关文档
最近下载
- 八年级英语上:教学设计(第1课时):How do you make a banana milk shake?.doc
- 实变函数教案.docx
- T∕CAGHP 032-2018 崩塌防治工程设计规范(可复制版).pdf
- 结合动画特性试论动画蒙太奇表现方式的应用的中期报告.docx
- 2022.07版中国铁路总公司《铁路技术管理规程》高速铁路部分.docx
- 基于PLC的变频恒压供水系统(完整版).doc
- (5篇)市场监督管理局创建文明城市工作表态发言材料汇编(word可编辑).docx VIP
- 眼底出血的护理查房.pptx
- 企业数字化转型的认识.pptx VIP
- 30题需求分析工程师岗位常见面试问题含HR问题考察点及参考回答.pdf
文档评论(0)