- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web在中国的发展状况
Web与Web搜索引擎
王继民
北京大学信息管理系
2009年秋
Outline
Web的结构与性质
Web的结构
Web的性质
Web在中国的发展状况
搜索引擎原理与技术
基本原理
天网搜索引擎运行环境
TSSE: 图情主题搜索引擎
搜索引擎的系统评估
Web挖掘研究
Web文档的自动分类与聚类
Web搜索引擎日志挖掘
Web的发展
1989年3月, 欧洲粒子物理研究室首次提出 World Wide Web的概念
1990年9月, 基于文本的第一个原型开始运行
1993年10月,Web发展的第一个高峰,其中在下半年Web不到3个月的时间里翻一翻
1994年5月,Web在中国登陆
1995年4月, 成为Internet上的第一大应用服务
1997年12月, Web上大约有3亿网页
2002年11月,Google索引超过24.7亿网页
2005年初, Google索引约80亿页面
2005年初, 北大天网搜集国内近3亿页面
2006年年初,北大天网搜集国内10.8亿页面 (静态网页)
2008年底, Google索引超过10万亿网页
Web的有向图表示Web页面是万维网上可通过http协议访问的一类文档,它的一个主要特点是其上包含有大量的超链信息,如果把网页看作节点,超链看作有向边的话,那么整个Web就构成了一个有向图;
万维网
站点 A
万维网
站点 C
万维网站点 E
万维网站点 D
万维网站点 B
Complex Network Example: WWW (K. C. Claffy) 有向网络, 结点:web页面,边:超链
Web: 可以看作一个复杂网络
可由点的增长与择优连接来模拟
具有无标度(power_law)性质和小世界现象.
有大的聚集系数,小的距离;
结构稳定而又脆弱的性质;
Complex Network Example: Internet (William R. Cheswick) 无向网络, 结点:路由器和计算机, 边:通讯设备(如电缆等)
教育网数据: 对xzm搜集的edu数据 2006年5月
网页数量〉1000,有376个,链接关系图
教育网数据--input
50个(入度大小. 按网络影响因子核心站点? )
Web的结构 (188Million Webpage)
整个Web就构成了一个有向图,该有向图中页面的分布呈蝴蝶结状。
Web的直径
Web直径:令(u,v)表示存在一条从顶点u到顶点v的路径。所有最短路径的平均长度称为Web的直径。
R. Albert etc. 通过实验,得到:Web直径的计算公式
d = 0.35 + 2.06 log(N)
结论:Web直径是 17, 即:任何两个网页如果它们之间存在一条有向路径的话,平均点击不超过17次就可以从一个网页到达另一个网页
IBM, Compaq和AltaVista采用2亿的数据验证,得到Web直径是16.28
中国Web直径为16.26,
Brewington and Cybenko 实验结果( 2000)
Web页面平均生命周期为138天,最常见的生命周期为62天。
Web信息越来越活跃,Web页面生命周期有减小的趋势。
右图, Web页面平均生命周期的概率分布
各个Domain 站点的Web页面的半衰期
Web已有哪些性质?
网页的数量每年按几何级数增长
网页的平均大小为10KB—15KB
网页的大小和内容大小的比约为3:1
网页的平均复制率约为4
网页的平均生命周期约为1.4年,半衰期约为1年
服从“power law”
体现“小世界”(small world)现象
整体具有“蝴蝶领结”结构
查询日志具有很强的时间局部性
…..
Outline
Web的结构与性质
Web的结构
Web的性质
Web在中国的发展状况
搜索引擎原理与技术
基本原理
天网搜索引擎运行环境
TSSE: 图情主题搜索引擎
搜索引擎的系统评估
Web挖掘研究
Web文档的自动分类与聚类
Web搜索引擎日志挖掘
中国十大互联网
初期中国四大互联网:
中国公用计算机互联网:ChinaNET()
中国金桥信息网: ChinaGBN()
中国教育和科研计算机网:CERNET()
中国科技网CSTNET()
CERNET八大地区网络中心
· 华北地区 · 西北地区
· 西南地区 · 华南地区
· 华中地区 · 华东北地区
· 东北地区 · 华东南地区
CERNET
北京大学
您可能关注的文档
最近下载
- 安徽省合肥重点中学2023-2024学年九年级上学期期中物理试卷(含解析).docx VIP
- 高中数学开学第一课-如何学好高中数学优秀课件p.pptx VIP
- 有机化学题库(附答案).pdf VIP
- 江苏省苏州市常熟市2023届六年级小升初真题数学试卷(含解析).doc VIP
- 《中小企业划型标准规定》(工信部联企业〔2023〕300号文件).docx VIP
- GB_T 36548-2018 电化学储能系统接入电网测试规%%%%%%%%%%%%%%%%%.pdf VIP
- 部编版语文五年级上册第3单元教材分析教学设计.doc VIP
- 2025年高考天津卷英语高考真题(原卷版).pdf VIP
- 新高考高中数学 题型全归纳(解析版).pdf VIP
- 2010年初中化学专题二 指导学生从化学视角认识“身边的物质”.doc VIP
文档评论(0)