网络信息内容获取技术概述.pptx

  1. 1、本文档共165页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信 息 内 容 安 全;上节回顾(3);第二章 网络信息内容获取技术 ;本讲提要;;网络信息发布形式;网络信息量;9、我们的市场行为主要的导向因素,第一个是市场需求的导向,第二个是技术进步的导向,第三大导向是竞争对手的行为导向。八月-21八月-21Wednesday, August 04, 2021 10、市场销售中最重要的字就是“问”。23:23:0723:23:0723:238/4/2021 11:23:07 PM 11、现今,每个人都在谈论着创意,坦白讲,我害怕我们会假创意之名犯下一切过失。八月-2123:23:0723:23Aug-2104-Aug-21 12、在购买时,你可以用任何语言;但在销售???,你必须使用购买者的语言。23:23:0723:23:0723:23Wednesday, August 04, 2021 13、He who seize the right moment, is the right man.谁把握机遇,谁就心想事成。八月-21八月-2123:23:0823:23:08August 04, 2021 14、市场营销观念:目标市场,顾客需求,协调市场营销,通过满足消费者需求来创造利润。04 八月 202111:23:08 下午23:23:08八月-21 15、我就像一个厨师,喜欢品尝食物。如果不好吃,我就不要它。八月 2111:23 下午八月-2123:23August 04, 2021 16、我总是站在顾客的角度看待即将推出的产品或服务,因为我就是顾客。2021/8/4 23:23:0823:23:0804 August 2021 17、利人为利已的根基,市场营销上老是为自己着想,而不顾及到他人,他人也不会顾及你。11:23:08 下午11:23 下午23:23:08八月-21 ;网络信息类型;网络信息类型;网络信息类型;网络信息类型;网络信息类型;网络信息类型;网络通信信息;;一、网络信息内容获取模型;2.1 网络信息内容获取模型;2.1 网络信息内容获取模型;2.1 网络信息内容获取模型;2.1 网络信息内容获取模型;;网络媒体信息获取原理;网上采集算法;;1.全网信息获取;2.定点信息获取;3.基于主题的信息获取和元搜索;国内元搜索引擎;3.基于主题的信息获取和元搜索;网络媒体信息获取的技术难点;网络通信信息获取方案;;网络通信信息获取方案;本讲提要;二、搜索引擎技术;二、搜索引擎技术;二、搜索引擎技术;二、搜索引擎技术;本讲提要;2.2.1 网上采集算法;2.2.1 网上采集算法;2.2.1 网上采集算法;网络媒体信息获取原理;2.2.1 网上采集算法;1.初始URL集合;2.信息获取;2.信息解析;3.信息解析(HTTP/HTML);4.信息判重;从爬虫的角度对互联网进行划分;爬虫URL抓取策略;深度优先遍历策略;宽度优先遍历策略;反向链接数策略;Partial PageRank策略;OPIC策略;大站优先策略;2.2.1 网上采集算法;本讲提要;2.2.2 排级算法;2.2.2 排级算法;2.2.2 排级算法:PageRank;2.2.2 排级算法:PageRank;2.2.2 排级算法:PageRank;2.2.2 排级算法:PageRank;2.2.2 排级算法:PageRank;2.2.2 排级算法:PageRank;2.2.2 排级算法:PageRank;2.2.2 排级算法:PageRank;PR(PageRank(网页级别)) ;PR(PageRank(网页级别)) ;2.2.2 排级算法:HITS;1. Hub页面与Authority页面 ;1. Hub页面与Authority页面 ;2.2.2 排级算法:HITS;2.2.2 排级算法:HITS;2.2.2 排级算法:HITS;2.2.2 排级算法:HITS 算法;2.2.2 排级算法:HITS 算法;2.2.2 排级算法:HITS 算法;优点: (1)知识范围扩大。 (2)搜索时部分地考虑了页面内容,挖掘结果科学性大大增强 不仅应用在搜索引擎领域,而且被“自然语言处理”以及“社交分析”等很多其它计算机领域借鉴使用,并取得了很好的应用效果 ;存在的问题: (1)计算效率低,实时性差 与查询相关的算法 (2)“主题漂移” (3)易被作弊者操纵结果 ??????? 作弊者可以建立一个很好的Hub页面,再将这个网页链接指向作弊网页,可以提升作弊网页的Authority得分 (4)结构不稳定 ????????在原有的“扩充网页集合”内,如果添加删除个别网页或者改变少数链接关系,则HITS算法的排名结果就会有非常大的改变。 ;HITS算法与PageRank算法比较;HITS算法与PageRank算法

您可能关注的文档

文档评论(0)

魏魏 + 关注
官方认证
内容提供者

教师资格证持证人

该用户很懒,什么也没介绍

版权声明书
用户编号:5104001331000010
认证主体仪征市联百电子商务服务部
IP属地江苏
领域认证该用户于2023年10月19日上传了教师资格证
统一社会信用代码/组织机构代码
92321081MA26771U5C

1亿VIP精品文档

相关文档