- 1
- 0
- 约1.41万字
- 约 12页
- 2025-10-20 发布于河南
- 举报
海纳百川,有容乃大;壁立千仞,无欲则刚。——林则徐
XX学院全球信息采集与大数据分析科研平台采购需求
一、采购清单
采购标的名称数量具体内容数量单位
多语种文献资料库8个
外文网站的数据抓取、清洗和文本分析端口,
全球信息采集与大数1项
1套全网搜索
据分析科研平台翻译机4台
计算机辅助翻译软件系统1项
二、采购内容
(一)多语种文献资料库
1英语、德语、法语、阿拉伯语、西班牙语、俄语、日语、韩语8个语种文献资料库,包括数据汇入、数
据共享、数据查询、小语种翻译、账号权限管理等主要模块,各模块功能如下:
2.数据汇入:采集数据汇入、用户资料编辑、上传;
3.数据共享:数据展示、查看、取用;
4.数据查询:搜索功能、主题分类;
5.账号权限管理:账号管理、角色权限、用户分组管理、登录控制、账号注册。
(-)外文网站的数据抓取、清洗和文本分析端口,全网搜索
共1项,服务期2年。
采集内容
1.
使用爬虫技术,采集范围包括800个外文网站(外文网站目录由采购人提供),采集内容包括文章标题、
时间、作者、正文、链接,采集频率为每天采集一次,数据每24小时更新,数据存储在本地,数据接入资料库。
中标方须根据数据采集要求,在定向800个网站进行数据收集,使用语言包括英语、德语、法语、阿拉伯语、
天将降大任于斯人也,必先苦其心志,劳其筋骨,饿其体肤,空乏其身,行拂乱其所为。——《孟子》
西班牙语、俄语、日语、韩语,并将所采集数据进行数字化转化,同时确保数据的真实性、完整性和合法性。
词语分析
2.
根据抓取的数据进行每周关键词、热词分析提示。
海外内容搜索
3.
接入全网搜索入口、800个外文网站全部内容搜索入口,提供线路供搜索海外内容,外文网站域名由后
台限定。
数据抓取要求
4.
(1)反爬机制要求
为确保网络爬虫系统能够高效稳定地采集所需信息,需要满足以下反爬机制:1)使用代理IP
网络爬虫应具备代理IP功能,代理IP应用于规避目标网站的IP封锁等限制,确保顺利进行数据采集。
2)模拟登录
网络爬虫系统应支持模拟登录功能,实现自动化登录操作,并保证账号和密码的安全传输和存储。
3)分析网页源码
实现网页源码分析功能,通过使用浏览器自带的开发者工具等技术,提取难以采集的页面中的所需信
息。
4)使用AP1接口
在可能的情况下,应优先使用目标网站提供的API接口来获取所需信息。
(2)数据去重和增量更新要求
为保证数据的准确性和避免不必要的资源浪费,网络爬虫系统需要实现数据去重和增量更新功能。
将爬取过程中产生的UR1进行存储,并确保UR1的唯一性,免重复请求。网络爬虫系统应对爬取到
您可能关注的文档
- 2025年tpi绩效管理制度 .pdf
- 00 去年-2024年度专题民主生活会整改情况报告.docx
- 市人社局党组班子2025年度民主生活会对照检查材料.docx
- 在2026年春节前干部廉政谈话会上的讲话.docx
- 05-13 个人对照-医院党委书记2025年度民主生活会个人对照检查材料 (1).docx
- 04-6 班子对照-高校党委领导班子2025年度民主生活会对照检查材料.docx
- 砺戈秣马启新程 奋楫笃行担使命——在市人民防空办公室2026年春节节后收心会上的讲话.docx
- 04-12 班子对照-银行系统2025年度民主生活会对照检查材料.docx
- 06-2 意见建议-2025年度民主生活会、组织生活会互相批评意见建议(共200条).docx
- 在市卫生健康委员会机关2026年全体干部政绩观教育大会上的党课讲稿.docx
- 03-2 2025年度民主生活会征求意见座谈会主持词.docx
- 03-1 2025年度民主生活会主持讲话提纲.docx
- 02-1 会前学习-《县以上党和国家机关党员领导干部民主生活会若干规定》相关要求.docx
- 在2025年度民主生活会上的总结讲话三篇.docx
- 在2025年度民主生活会上的总结讲话三篇 (3).docx
- 市委宣传部2025年度民主生活会查摆问题整改方案两篇.docx
- 在市行政审批和政务信息管理局机关2026年全体干部政绩观教育大会上的党课讲稿.docx
- X市应急管理局2026年度安全生产监督检查计划.docx
- 2025年度民主生活会领导班子对照检查材料(五个带头)三篇.docx
- 2025年度民主生活会“五个带头”个人对照检查材料三篇.docx
原创力文档

文档评论(0)