- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
招投标大数据抓取及分析系统探索
招投标数据的重要性不言而喻,因此我们建议建设招投标
大数据抓取及分析系统。该系统能够抓取和分析招投标数据,
帮助企业了解竞争对手的行业份额和实力,预测下一年度的投
资预算,对企业的自身发展有关键的指导意义。同时,该系统
也可以提供数据给其他企业及运营商管理层,更多了解政府行
业投资,进行发展规划和预测。
该系统的客户主要有两个方面,一个是企业本身,需要了
解同行业的竞争数据,另一个是其他的企业,需求与我们类似。
因此,本系统是支持多企业的云化平台,可满足多家企业同时
使用。
系统的覆盖范围应当是一个区域,如某省、某市,以该省
的政府采购网站为主,可获得政府投资项目招标信息,同时,
也需要覆盖该省其他招投标网站,对非政府采购数据进行抓取,
系统应具备自动抓取的功能,配置相关招标网站进行适配,即
可自动获得相关的数据。
招投标数据量庞大,需要采用大数据技术进行存储和分析
计算,以获得分析结果,应以结构化数据和非机构化数据两种
方式进行存储,满足数据分析的需要。
招投标大数据抓取及分析系统的主要建设内容包括四个部
分,一是数据存储中心,将抓取到的有效数据进行集中分类存
储,为分析提供基础;二是数据抓取爬虫及对应招投标网站的
适配器,将招标网站上的数据进行抓取,适配不同网站不同的
数据来源和展现形式;三是数据查重和审核校对系统,对抓取
到不同网站的数据进行审核和校对,通过后才能进入数据存储
中心,做为分析的有效数据;四是网站应用,提供客户的管理
和分析服务的提供,根据客户需要,提供对应的数据分析结果,
并导出ppt。
为了实现该系统,我们将采用大数据技术进行存储和分析
计算,并开发数据抓取爬虫及对应招投标网站的适配器,数据
查重和审核校对系统以及网站应用。该系统能够提供数据给企
业及运营商管理层,更多了解政府行业投资,进行发展规划和
预测。
本系统的主要技术方案采用Java技术进行开发,并采用
MySQL群集和MongoDB群集进行数据存储。大数据处理和
分析将采用Storm,而数据爬虫和适配器技术将用于抓取对应
数据。最终,采用定制化报表技术进行数据展示。
开发所需技术具备一定的复杂程度,但我们相信可以自主
开发完成。工期初步规划为2人月左右,以实现可演示demo
的制作为目标。
为了确保项目的顺利实施,我们建议在开发过程中尽可能
地遵循以下几点:
1.首先,根据需求和建设内容,制定详细的开发计划和时
间表,以确保项目能够按时完成。
2.其次,加强团队协作和沟通,确保开发过程中各个环节
的协调配合,避免出现不必要的错误和延误。
3.在开发过程中,及时进行代码审查和测试,以确保代码
的质量和稳定性。
4.最后,在项目实施过程中,需要充分考虑数据的安全性
和保密性,确保数据不被泄露或遭到攻击。
综上所述,我们相信本系统的技术方案和实施建议将能够
为项目的顺利实施提供有力的保障。
文档评论(0)