警惕中文网页数量急剧下降.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

—PAGE1—

警惕中文网页数量急剧下降

“全球前100万网站中,中文网站的比例只占1.3%,英文占59.3%”;“中文网页数量仅仅略高于印尼语和越南语”;“中文网页的数量十年间下降了70%”……这类关于中文互联网内容占比低、迅速衰退的说法在互联网上流行。中国有超过10亿的网民,却连互联网内容的一角都占据不了,甚至还在继续倒退,这种反差感引起热议,但以上统计数据真的能反映现实情况吗?

统计数据可能存在缺陷

这些说法,包括CNNIC的数据都有同一个来源,监测网站W3Techs,它通过分析访问量最高的1000万个网站来确定互联网内容的语言分布。现在网上很多关于互联网语言多样性的讨论,就建立在W3Techs的数据之上。按照W3Techs的数据,英文内容始终是互联网的主流。然而法国学者丹尼尔·皮米恩塔(DanielPimienta)和他的合作者不认同这个观点。W3Techs的方法存在显著缺陷,尤其忽视了互联网的多语言特性。例如,许多网站同时使用多种语言,但W3Techs通常只记录其中一种主要语言,导致了对非主要语言内容的严重低估。这样的统计方法导致英语之外的互联网语言存在被大大低估。另外,W3Techs的计量单位是网站,没有详细到网页的程度。一些非英文网站会在其主页中出现英文摘要或少量英文单词,这可能会导致整个网站被算作英文网站。此外,许多英文网站的其他语言版本也不会被计算在内。

真实的情况

为了纠正这种误解,皮米恩塔和他的合作者开发了一种新的统计方法。他们的方法不仅依赖于网站声明的语言,还结合了多个关键因素,包括互联网用户的语言偏好、不同地区的网络流量、社交网络的订阅情况及各国互联网服务的发展进度等。这种综合考量使得研究结果更具代表性和准确性。尽管W3Techs等网站数据显示,互联网上英文内容占比超过50%,但这项研究表明,这一比例实际上大约只有20%。

具体来说,现在英文占到互联网内容的20.4%,中文占到18.9%,西班牙语占7%到9%,其他语言如阿拉伯语、印地语、俄语、法语和葡萄牙语分别占3%到4%。相比W3Techs的数据,这项研究中印地语和中文内容的比重都增加了超过10倍。按这项研究的计算标准,中文内容不仅没有减少,反而在全球范围内持续增长。比例上有所下降的反而是英文内容。从1998年到现在,英文内容的比例从已经从80%下降到20%。但这并不是因为英文内容消亡了,而是其他语言的内容显著增加,削弱了英文内容的相对比例,而中文内容就处于增长之中。

中文网站当前存在的问题

全球互联网都在衰退,包括中文网站

对于互联网内容来说,这样的衰退其实每天都在发生。今年5月,皮尤研究中心的一项新研究发现,截至2023年10月,2013年至2023年间一度存在的所有网页中,有四分之一已无法访问。2013年的网页有38%已经消失。哪怕是2023年的网页,到这一年的十月份都有8%已经无法访问了。团队从互联网快照数据库CommonCrawl的档案中随机收集了近100万个网页样本,对2013年到2023年每一年CommonCrawl收集的页面进行抽样(每年大约90,000个页面),并检查这些页面是否仍然存在。

具体到各个领域。政府网站有21%至少包含一个损坏的链接。新闻网站页面上的所有链接中有5%无法访问,抽样的所有页面中23%至少包含一个损坏的链接。按网站流量排名前20%的新闻网站中,约有25%的页面至少有一个损坏的链接。近五分之一的推特帖子,在三个月左右的观察期内也不再可见。在学术领域,也有很多数字化的论文从互联网上消失。数字化的学术论文通常有着唯一且不变的DOI,以确保学术链接和引用的持久性,然而现在很多DOI背后的作品却已经无法找到。伦敦伯克贝克大学文学、科技和出版研究员马丁·伊夫(MartinEve)对超过70万篇带有DOI的数字学术论文进行调查,发现接近28%的论文没有出现在主要的数字档案库中,也就是说,超过200万学术论文没有得到保存。

高质量信息越来越难找

在今年的欧洲信息检索会议(EuropeanConferenceonInformationRetrieval)上,四位来自德国的研究者发布了一项名为《谷歌在变坏吗?》(IsGoogleGettingWorse?)的研究,研究团队利用一年时间,监测了Google、Bing和DuckDuckGo搜索结果的变化,发现所有搜索引擎在处理SEO内容上存在问题,远超过整个网络平均情况。越是靠前的内容,越是做了更多优化而且有更多返佣链接,链接越多内容的复杂性越差。其中联盟营销内容(为平台推广产品,获取点击或返佣的内容)仅占网络产品评论的小部分,但它却在搜索结果中占据主导地位。不仅是谷歌,所有搜索引擎均遭受垃圾信息的

您可能关注的文档

文档评论(0)

Σ + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档