2025年XX学院全球信息采集与大数据分析科研平台采购需求 .pdfVIP

  • 1
  • 0
  • 约1.41万字
  • 约 12页
  • 2025-10-20 发布于河南
  • 举报

2025年XX学院全球信息采集与大数据分析科研平台采购需求 .pdf

海纳百川,有容乃大;壁立千仞,无欲则刚。——林则徐

XX学院全球信息采集与大数据分析科研平台采购需求

一、采购清单

采购标的名称数量具体内容数量单位

多语种文献资料库8个

外文网站的数据抓取、清洗和文本分析端口,

全球信息采集与大数1项

1套全网搜索

据分析科研平台翻译机4台

计算机辅助翻译软件系统1项

二、采购内容

(一)多语种文献资料库

1英语、德语、法语、阿拉伯语、西班牙语、俄语、日语、韩语8个语种文献资料库,包括数据汇入、数

据共享、数据查询、小语种翻译、账号权限管理等主要模块,各模块功能如下:

2.数据汇入:采集数据汇入、用户资料编辑、上传;

3.数据共享:数据展示、查看、取用;

4.数据查询:搜索功能、主题分类;

5.账号权限管理:账号管理、角色权限、用户分组管理、登录控制、账号注册。

(-)外文网站的数据抓取、清洗和文本分析端口,全网搜索

共1项,服务期2年。

采集内容

1.

使用爬虫技术,采集范围包括800个外文网站(外文网站目录由采购人提供),采集内容包括文章标题、

时间、作者、正文、链接,采集频率为每天采集一次,数据每24小时更新,数据存储在本地,数据接入资料库。

中标方须根据数据采集要求,在定向800个网站进行数据收集,使用语言包括英语、德语、法语、阿拉伯语、

天将降大任于斯人也,必先苦其心志,劳其筋骨,饿其体肤,空乏其身,行拂乱其所为。——《孟子》

西班牙语、俄语、日语、韩语,并将所采集数据进行数字化转化,同时确保数据的真实性、完整性和合法性。

词语分析

2.

根据抓取的数据进行每周关键词、热词分析提示。

海外内容搜索

3.

接入全网搜索入口、800个外文网站全部内容搜索入口,提供线路供搜索海外内容,外文网站域名由后

台限定。

数据抓取要求

4.

(1)反爬机制要求

为确保网络爬虫系统能够高效稳定地采集所需信息,需要满足以下反爬机制:1)使用代理IP

网络爬虫应具备代理IP功能,代理IP应用于规避目标网站的IP封锁等限制,确保顺利进行数据采集。

2)模拟登录

网络爬虫系统应支持模拟登录功能,实现自动化登录操作,并保证账号和密码的安全传输和存储。

3)分析网页源码

实现网页源码分析功能,通过使用浏览器自带的开发者工具等技术,提取难以采集的页面中的所需信

息。

4)使用AP1接口

在可能的情况下,应优先使用目标网站提供的API接口来获取所需信息。

(2)数据去重和增量更新要求

为保证数据的准确性和避免不必要的资源浪费,网络爬虫系统需要实现数据去重和增量更新功能。

将爬取过程中产生的UR1进行存储,并确保UR1的唯一性,免重复请求。网络爬虫系统应对爬取到

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档