网站大量收购独家精品文档,联系QQ:2885784924

网页数据解析与结构化子系统设计报告(冯滔组).docx

网页数据解析与结构化子系统设计报告(冯滔组).docx

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网页数据解析与结构化子系统设计报告项目章程项目范围网页数据解析与结构化,网页多种类型文档的解析。网页关键信息的提取和网页分析,有针对性地获取有价值的信息。项目计划进度表与预算进度表:编号任务名称2015年6月7月8月1问题分析------2需求分析------3逻辑分析-------4决策分析----5物理分析-----6构造和测试------------7实现和发布--------------开发成本:人员花费: 职务薪资水平(元/月)数量(人)开发周期总花费(元)系统架构师20000160000数据库专家20000160000系统分析员10000130000程序员8000124000系统资料员7000121000基础设施花费:名称单价(元)数量总花费(元)阿里云服务器2003600实验室200024000个人笔记本5000525000黑板1002200预算总花费项目开发周期持续三个月,预算总花费为:224800元。开发方法学面向对象的软件开发方法OMT(Object Modelling Technique),包括面向对象分析(OOA),面向对象设计(OOD),面向对象编程(OOP)。这是一种以对象建模为基础,从而不仅考虑输入、输出数据结构,实际上也包含了所有对象的数据结构。OO技术在需求分析、可维护性和可靠性这三个软件开发的关键环节和质量指标上有了实质性的突破,一定程度上解决了这些方面存在的严重问题。交付的成果得到一个可靠、实用的网页数据解析与结构化子系统。子系统能自动的解析原始的网页文档,进行元数据抽取。可以根据不同的文档类型,利用相应的模板对文档进行解析。同时也提供一个通用的网页解析的模板处理不能使用专用模板的网页文档。系统再将解析的不同类型的文档元数据结构化的存入数据库,通过网页展示文档信息和检索文档元数据。质量标准子系统能稳定的运行,且满足系统的要求,可以很容易地和其他子系统兼容。项目设计完善,技术文档齐全且格式标准。系统设计方案系统体系结构(组织方式)李清韦:说明设计依据,即依据系统的特性(性能、安全、可靠、可用、可维护等非功能属性)说明设计方案的优势。给出系统的体系结构图。设计依据:本方案的设计综合考虑了现阶段网络文档解析的具体情况,在尽量减少成本及保持良好效果的前提下,经过小组成员讨论,并根据之前的构建作出详细的规划说明,运用了系统分析设计方法对问题的提出分析,方案的设计及选定,制定了本设计实施方案。活动图组件图部署图数据架构和数据库设计陈独正:简要说明系统的数据架构和数据库设计方案。网站(网站PK,网站名称,网站域名)网页(网页PK,网页URL,网站FK)文档(文档PK,文档标题,会员Fk,发布时间,文档类型FK,文档内容,文档点击量,来源网页FK)相关文档(关系PK,目标文档FK,相关文档FK)会员(会员PK,会员名称,网站FK)评论文档(评论PK,目标文档FK,评论文档FK)模板(模板PK,网站FK,文档标题,会员名称,发布时间,文档类型FK,文档内容,文档点击量)文档类型(类型PK,类型名称)对象模型徐大林:用对象模型(设计用例图、类图、状态图、时序图、协作图等)说明各子系统的模块分解、控制风格、协作和交互关系。用例图类图状态图活动图时序图实施方案杨欢:用活动图、组件图和部署图说明系统的,并简要给出设计依据。性能:利用计算机编程可以对网页不同的文档类型进行自动的解析,进行数据抽取,有针对性地获取有价值的信息,提取需要的元数据,得到网页特定的信息或属性,并对实现网页数据的自动化处理和归档,通过专门的网页结构解析的方法提取网页的元数据,减小数据存储的需求,也将有效信息富集,提高信息的可用性和价值,有利于进一步的分析。可维护性:建立专用文档模板和通用文档模板,将功能模块化。利用正则表达式对元数据进行定位和提取,建立标准的文档解析器,文档解析器通过调用不同的模板文档可以解析不同类型的网页文档。使得系统的维护变得简单易行。安全及可靠性:对于得到的元数据,建立合适的ER图和UML图,使用MySQL数据库,利用JDBC连接数据库,使用POJO来封装数据实体的数据,使用hibernate来对元数据进行持久化。保证了数据的安全和可靠性。可用性:因为是利用解析器对文件结构进行解析,准确提取需要的信息,可以减少硬件的使用,尤其是储存硬件,最大的好处是将没用的信息进行了初步的筛选,有针对性地提取有价值的信息,有利于进一步的大数据分析。对于一般的应用,在个人电脑上就足够进行软件的构建和测试,因此可用性得到了保证。系统体系结构任务分配及小组贡献任务名称完成人员小组贡献项目章程冯滔20系统体系结构李清韦20数据构架和数据库设计陈独正20对象模型徐大林20实施方案杨欢20

文档评论(0)

wuailuo + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档