新闻采集(用户需求).docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
新闻采集(用户需求)

新闻采集发布系统 ---需求文档 目录 1引言 3 1.1编写目的 3 1.2 项目背景 3 1.3 术语说明 3 2 项目概述 3 2.1 软件的一般描述 3 2.2 软件的功能 4 2.2.1 功能架构 4 2.2.2 功能特点 4 2.2.3 功能描述 5 2.3 用户特征和水平 7 2.4 运行环境 7 2.5 条件与限制 8 2.5.1 开发工具与技术 8 3 功能需求 8 3.1 功能划分 8 3.2 功能描述 9 3.2.1 运行管理 9 3.2.2 信息管理 9 3.2.3 统计报表 9 3.2.3 系统管理 9 4 外接接口需求 10 4.1 用户界面 10 4.2 硬件接口 10 4.3 软件接口 10 4.4 通信接口 10 4.5 故障处理 10 5 性能需求 11 5.1 数据精确度 11 5.2 ?时间特性 11 5.3 ?适应性 11 6 其他需求 11 7 数据描述 11 7.1静态数据 11 7.2 动态数据 11 7.3 数据库描述 11 7.4 数据字典 12 7.5 数据采集 12 8 附录 12 1引言 1.1编写目的 信息的自动获取,信息的更新需要大量的人力来完成,而信息自动发布系统能够自动从互联网上获取新的信息,节省了运营的人力成本;丰富IPTV的内容,根据调查,用户最希望IPTV63%)和视音频点播(73%),信息自动发布系统给IPTV提供了信息资讯的内容;互联网上有各种各样的信息资源,但都是根据pc浏览器设计的。而电视上网有各种终端,浏览器各不相同,分辨率不同,支持html、javascript的能力也不同。因此互联网上的内容无法很好的在IPTV的各种终端上显示,需要对互联网上的内容重新组织、编排。 1.2 项目背景 基于现有IPTV平台 以及 企业信息化应用平台新闻咨询信息全有人工采集,其弊端表现为:采集速度慢,信息更新速度慢,采集信息量小,所采集信息重用性小(不能用于IPTV平台与企业信息化平台)等。 基于以上存在的问题,由中国电信成都分公司IPTV项目组发起,由上海帕科软件科技有限公司开发。 1.3 术语说明 I P T V(Internet Protocol Television)网络电视 2 项目概述 2.1 软件的一般描述 通过新闻采集系统可以对互联网新闻内容进行自动快速采集,并可以根据用户定义的任务配置,批量而精确地抽取目标网络媒体栏目中的新闻或者文章,转化为结构化的记录(标题,作者,内容,采集时间,来源,分类,相关图片等),保存在本地数据库中,用于内部使用或外网发布,快速实现外部信息的获取。本系统对目标网站进行信息自动抓取,支持RSS新闻采集和HTML新闻采集,可以采集页面内多种类型的数据,如文本信息,URL,数字,日期,图片等。 2.2.1 功能架构 系统功能架构如下图所示: 系统主要包括三个模块 采集引擎模块 后台管理模块 3. 门户模块(接口模块) 2.2.2 功能特点 用户对每类信息自定义来源与分类 可以下载图片与各类文件,如PDF,Flash等 支持命令行和纯服务格式,可以Windows任务计划器配合,定期抽取目标网站 支持记录HASHCODE等唯一索引,避免相同信息重复入库 支持智能替换功能,可以将内容中嵌入的所有的无关部分如广告去除 支持多页面文章内容自动抽取与合并 数据直接进入数据库而不是文件中,因此与利用这些数据的网站程序或者桌面程序之间没有任何耦合 支持数据库表结构完全自定义,充分利用现有系统 支持多个栏目的信息采集可用同一配置一对多处理 提供基于 Web的在线内容编辑,可以方便灵活的进行内容调整和预览 保证信息的完整性与准确性,绝不会出现乱码 提供基于XSLT的模板和帕科自定义格式的模版,从而提供灵活方便标准的模版,方便运营商设计自己的界面 支持各种主流数据库,如MSSQL、Access、MySQL、Oracle、DB2、Sybase等 2.2.3.1新闻采集引擎 新闻采集引擎需包括RSS新闻采集和HTML新闻采集两个关键模块,分别负责从两种协议进行采集分析。系统采用基于LUA自定义脚本的方式,提供高效和可维护的信息采集。 2.2.3.2 新闻采集管理后台 2.2.3.2.1新闻科目管理 新闻科目管理对所有的新闻进行科目定义,如财经频道、国际新闻、国内新闻等内容。新闻科目支持无限分级,从而可以提供更加人性化的导航和分类。 2.2.3.2.2 新闻来源管理 新闻来源管理对新闻的出处进行管理、如新浪网、上海热线、网易、搜狐等。从而方便统计和管理。新闻来源管理实现新闻来源的添加、删除、更改等功能。 2.2.3.2.3 新闻采集点管理 新闻采集点按照新闻来源导航,提供对各个采集分析点的管理,采集点的内容一般呈现

文档评论(0)

xy88118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档