- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中国地区Internet特性剖析DmytroLande
中国地区Internet特性剖析DmytroLande
摘要:文本通过与全球Internet资源对比的方法,评估中国地区Internet的独特特性,并在此基础上分析了采用RSS源采集中国地区Internet信息的可能性。
关键词:中国地区Internet;网络资源特性;RSS源;信息采集
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)28-0020-04
1 概述
随着Internet的发展,中国已成为全球网络用户数量最多的国家,目前超过6.88亿占全国总人口一半以上的用户使用Internet。而Internet发源地美国的用户量仅为2800万排名第三。同美国相比,中国地区Internet的发展有其自身的特色[1-3]。首先,通过移动客户端访问Internet的用户远超美国,中国约有90%的用户通过智能手机等移动客户端访问Internet,而美国仅有40%的用户通过移动客户端连入Internet;其次,在线发布内容具有高活性和高稳定性,中国在线发布内容超过美国大约20%-50%;最后,用户年龄段的构成不同于美国,中国20-29岁的用户占比最高大约30%左右,10-19岁的用户次之约占22%,另外还有24%的用户年龄段处于30-39岁。
Internet用户量排名前37位的国家用户使用Internet比例如图1所示。图中橙色和灰色部分分别表示使用和未使用Internet的用户量。该图可以反映某国用户对Internet的贡献情况,以及国内Internet的使用程度。
中国地区Internet用户增长状况如图2所示[4]。其中横轴表示年份,纵轴表示用户量,单位为百万。
中国拥有423万个网站和2123亿个网页,其每年的增长情况如图3所示。其中横轴表示年份,纵轴左侧表示网站的增长情况(单位:百万),右侧表示网页的增长情况(单位:十亿)。绝大多数网站使用汉语,仅有少量使用英语,这为欧美国家的用户访问增加了难度,幸好随着Google翻译等软件的逐渐成熟,对解决因语言障碍问题而引起的用户访问困难起到了很大的帮助。
目前大多数文献仅从用户量、网站和网页数量等统计性特征分析了对中国地区Internet的情况,很少有从采集角度对内容层面的特征进行深入分析。本文首先使用对比分析的方式对中国地区Internet资源特征进行总结,然后探讨了利用RSS和网络资源监控软件采集中国地区Internet网站的可能性。
2 中国地区Internet特性分析
中国地区Internet内容的采集受一系列因素的影响,包括:网站及网页数量,区域分布,语言和编码, web文档数据格式、报纸、新闻机构、教育和科研机构门户网站,开放出版物,社交网络等。文献[1-4]已对这些因素进行了分析,在此不再赘述。然而网站内容的访问往往并不是通过直接输入URL地址实现的,而是依赖于搜索引擎及网站的索引。而不同搜索引擎在不同国家地区Internet覆盖情况取决于搜索引擎所属国家、托管网站搜索国家以及网站的类型(如商业、政府、组织、大学网站等)[5,6]。文献[7,8]提出了对搜索引擎索引的评价及其可视化方法。鉴于现有研究成果,在对中国地区Internet特性进行分析师,除合理使用文献提供的数据外,还应将中国地区Internet与其他国家地区Internet 进行比较,使用对比的方法发现中国地区Internet不同于其他国家和地区的独特特性。
2.1 网站数量
由文献[4]提供的数据可知,2010年底中国地区网站总量为191万,到了2015年底网站数量达到423万。中国不同区域网站分布情况如图4所示。其中横轴表示区域,纵轴表示网站数量。由图可知,广东省的网站数最多约67.1万,占总量的15.9%,而西藏的网站数最少仅为1000。
截止2016年9月全球网站总数为10.8亿,根据Web服务器的监测显示其中活跃的网站数量约为1.73亿。由此可以看出,中国地区网站仅占世界活跃网站总数的2.4%左右。而国土面积远小于中国的乌克?m地区,其拥有网站532万,占世界活跃网站总数的30.7%左右。
2.2 网页数量
2006年5月搜索引擎baidu为用户提供了超7.4亿次网页访问,而到2015年底网页数量达到了2123亿。中国各地区网页的分布情况如图5所示,其中横轴表示区域,纵轴表示网页数量。由图可知,北京市网页数量最多远超850亿(其中静态网页500亿,动态网页340亿),青海网页数量最少约为3400万(其中静态网页2000万,动态网页1300万)。全国超2120亿的网页中,静态网页1310亿,动态网页800亿,两者的比值约为1.63。具体到中国某区域时,这一比值分别从重庆
您可能关注的文档
最近下载
- 静配中心-高警示药品管理考核试题(附答案).docx VIP
- 静配中心-高警示药品管理考核试题.docx VIP
- 静配中心药品日常管理考核试题(+答案解析).docx VIP
- 雷克萨斯-Lexus IS-产品使用说明书-IS300-ASE30L-AEZLZC-LEXUS雷克萨斯IS300OM53D87C_01-1705-00.pdf VIP
- 静配中心药品日常管理考核试题及答案.docx VIP
- 静配中心业务知识考核试题题库及答案.docx VIP
- 人物细节描写课件.pptx VIP
- 精准医疗与传统治疗比较.docx VIP
- 静配中心考试题库和答案.docx VIP
- 西雅图中央图书馆案例分析.pdf VIP
文档评论(0)