- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络信息内容获取技术概述
信 息 内 容 安 全;上节回顾(3);第二章 网络信息内容获取技术;本讲提要;;网络信息发布形式;网络信息量;网络信息类型;网络信息类型;网络信息类型;网络信息类型;网络信息类型;网络信息类型;网络通信信息;;一、网络信息内容获取模型;2.1 网络信息内容获取模型;2.1 网络信息内容获取模型;2.1 网络信息内容获取模型;2.1 网络信息内容获取模型;;网络媒体信息获取原理;网上采集算法;;1.全网信息获取;2.定点信息获取;3.基于主题的信息获取和元搜索;国内元搜索引擎;3.基于主题的信息获取和元搜索;网络媒体信息获取的技术难点;网络通信信息获取方案;;网络通信信息获取方案;本讲提要;二、搜索引擎技术;二、搜索引擎技术;二、搜索引擎技术;二、搜索引擎技术;本讲提要;2.2.1 网上采集算法;2.2.1 网上采集算法;2.2.1 网上采集算法;网络媒体信息获取原理;2.2.1 网上采集算法;1.初始URL集合;2.信息获取;2.信息解析;3.信息解析(HTTP/HTML);4.信息判重;从爬虫的角度对互联网进行划分;爬虫URL抓取策略;深度优先遍历策略;宽度优先遍历策略;反向链接数策略;Partial PageRank策略;OPIC策略;大站优先策略;2.2.1 网上采集算法;本讲提要;2.2.2 排级算法;2.2.2 排级算法;2.2.2 排级算法:PageRank;2.2.2 排级算法:PageRank;2.2.2 排级算法:PageRank;2.2.2 排级算法:PageRank;2.2.2 排级算法:PageRank;2.2.2 排级算法:PageRank;2.2.2 排级算法:PageRank;2.2.2 排级算法:PageRank;PR(PageRank(网页级别)) ;PR(PageRank(网页级别)) ;2.2.2 排级算法:HITS;1. Hub页面与Authority页面 ;1. Hub页面与Authority页面 ;2.2.2 排级算法:HITS;2.2.2 排级算法:HITS;2.2.2 排级算法:HITS;2.2.2 排级算法:HITS 算法;2.2.2 排级算法:HITS 算法;2.2.2 排级算法:HITS 算法;优点:
(1)知识范围扩大。
(2)搜索时部分地考虑了页面内容,挖掘结果科学性大大增强
不仅应用在搜索引擎领域,而且被“自然语言处理”以及“社交分析”等很多其它计算机领域借鉴使用,并取得了很好的应用效果
;存在的问题:
(1)计算效率低,实时性差
与查询相关的算法
(2)“主题漂移”
(3)易被作弊者操纵结果
??????? 作弊者可以建立一个很好的Hub页面,再将这个网页链接指向作弊网页,可以提升作弊网页的Authority得分
(4)结构不稳定
????????在原有的“扩充网页集合”内,如果添加删除个别网页或者改变少数链接关系,则HITS算法的排名结果就会有非常大的改变。
;HITS算法与PageRank算法比较;HITS算法与PageRank算法比较;HITS算法与PageRank算法比较;HITS算法与PageRank算法比较;网页排名;本讲提要;2.2.3 搜索引擎与垃圾信息关系;2.2.3 搜索引擎与垃圾信息关系;Bernard J. Jansen和Amanda Spink的研究结果显示,大约80%的用户只需要搜索结果前3页。为了让广大的网络用户能够看到自己的页面,网站管理者和网页制作者就想方设法让其站点和页面变得有名,以期用户在进行相关内容查询时,目标网页排在结果集的最前面。为此,搜索引擎优化(Search Engine Optimization)应运而生。;搜索引擎优化(Search Engine Optimization)
搜索引擎优化师(Search Engine Optimizer, SEOer)
利用工具或其他手段,使目标网站符合搜索引擎的搜索规则,从而获得较好的排名;2.2.3 搜索引擎与垃圾信息关系;2.2.3 搜索引擎与垃圾信息关系;如何提高PR;如何提高PR;影响PR的因素;提高PR的方法;提高PR的方法;2.2.3 搜索引擎与垃圾信息关系;本讲提要;2.3.1 数据挖掘技术历程;2.3.1 数据挖掘技术历程;2.3.1 数据挖掘技术历程;本讲提要;2.3.2 Web挖掘技术;2.3.2 Web挖掘技术;2.3.2 Web挖掘技术;2.3.2 Web挖掘技术;本讲提要;2.3.3 Web文本挖掘技术;2.3.3 Web文本挖掘技术;本讲提要;四、信息推荐技术;四、信息推荐技术;;四、信息推荐技术;四、信息推荐技术——应用;本讲提要;2.4.1 信息推荐概念和形式化定义;2.4.1 信息推荐概念
您可能关注的文档
最近下载
- 化工生产技术项目苯乙烯的生产.ppt VIP
- 九年级上册历史总复习知识点(可打印).pdf VIP
- 《红星照耀中国》第九章:同红军在一起(续)+带读课(课件)语文统编版2024八年级上册.pptx VIP
- 推拿治疗学不寐课件,十四五推拿治疗学课件.pptx VIP
- 《道德与法治》课程标准测试题含参考答案.pdf VIP
- 酒吧劳动用工合同范本7篇.docx VIP
- 是否应该禁止使用塑料袋和塑料吸管?辩论赛 正方辩词一辩、二辩、三辩、四辩发言稿.docx VIP
- 21年浙江6月卷高考地理真题解析.pptx VIP
- 药店动态质量管理知识(一)答案-2025年执业药师继续教育.docx VIP
- 【中学】【育人故事】唤醒你的“耳朵”.docx VIP
文档评论(0)