- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文档功能点常用程度分析与统计系统设计
文档功能点常用程度分析与统计系统设计
摘要:文档功能点是文档处理中的常用概念。在文档处理中需要分析功能点的重要程度或使用频度。这项工作目前都是依靠人工,工作量大且带有主观性。该文设计的系统可完成对办公文档中所用功能点的统计,并提供分析数据,以达到自动化地获取客观数据来评价功能点重要程度的目的。
关键词:文档格式;可扩展置标语言;文档处理;功能点
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)03-0547-04
为了改善文档的互操作性和兼容性,基于可扩展置标语言XML的文档格式标准孕育而生,比如在2006年成为国际标准的ODF[1],在2007年成为中国文档标准的UOF[2],在2008年成为国际标准的OOXML[3]。虽然不同的标准已经存在,但是完全实现无障碍的文档互操作仍然具有一定难度。为了改善文档的互操作性,需要对大量的文档进行分析,其中一项重要工作是需要评价文档中功能点的重要程度。当前的评价工作主要依靠人工完成,工作量大且主观因素较强。实现自动化的、客观地评价功能点常用程度成为了一项新的需求。该文提出了一个文档功能点常用程度分析与统计系统,能取代传统的人工分析,通过对大量文档实例的统计分析,自动化地完成评价工作,进而为文档互操作性分析提供帮助。
1 文档模型
当用户编辑文档时,时常需要编辑段落格式或者内容,像这种被编辑的文档属性就称为功能点。比如,“Creator”代表了创造此文档的作者,“Edit Times”代表了作者编辑此文档的次数。
文献[4]给出了模型,其中基于多个XML文档格式给出了一个树型的功能点体系,并描述了每个功能点与具体文档格式的映射关系,即给出了一个功能点在一个特定文档格式中对应的XPath。这种映射信息可用于自动提取一个具体文档所包含的功能点集合。如图1所示。
2 系统设计
2.1 文档分析
系统的输入是待分析的文档和存储着功能点描述信息的模型文件、系统的输出是所有待分析文档功能点使用情况的数学统计概率,最终将会以Excel表格形式呈现统计数据的结果。系统处理流程如图2所示,用户选择一系列要分析的文档以及模型文件,???统记录用户选择的所有文件目录,依此取出文档解压成一系列XML文档。XML处理器需要使用功能点的模型文件,模型文件中有每个功能点的描述和属性信息。处理文档时,从模型文件中依此取出功能点的位置信息从而在单个文档中进行查询,如果查询到这个功能点存在,它的使用信息就被加入功能点分析数据的表中,直到模型文件中的所有功能点在这个文档中都被查询完毕时单个文档分析处理完成。接着进行下一个文档的分析处理,同样从模型中取出第一个至最后一个功能点的信息在文档中进行查询,直到完成所有文档的处理。最终对所有待分析文档功能点的分析数据进行数学统计处理最终得出统计数据。
2.2 功能点的统计分析
系统需要对之前输出的分析情况进行统计分析,分析使用三个设计好的公式,使用这三个公式可以得出文档互操作性的客观评价依据。使用的公式如图3所示。
3 系统实现及实验数据
3.1 系统实现
系统使用JAVA语言编写,采用DOM4J 技术对XML文档解析和处理。DOM4J它是一个开源XML解析包,应用于Java 平台,采用了Java 集合框架并完全支持DOM,SAX,JAXP。下面给出主要类的设计。如图4所示的 FormulaThreeTran_final类具有选取模型文件、文档、功能点分析的功能。如图5所示的RateAnalysisThird类利用公式三的方法,统计分析所有已分析文档的功能点数据,其输出结果存入数据库。其他两个公式处理类与公式三设计近似。
3.2 实验
随机给定10个后缀为docx的文档,即符合OOXML格式字处理文档,利用本系统对这10个文档进行分析得出功能点的一些统计值。图6所示为使用公式(2)对这10个文档进行统计分析得出的部分结果展示,在图表中可以看到Text_Bold功能点和Underline_DashDotDot等功能点,及各功能点的使用概率。概率高的即常用程度较高的功能点。当文档的样本量较大时,这些结果即可作为评价功能点常用程度的客观依据。
4 总结
本文提出一种文档功能点常用程度分析与统计系统。该系统可自动地提取文档中使用的功能点集合,通过对大量具体文档的统计,分析各功能的使用频度,以此作为客观评价功能点重用程度的依据。该系统的自动化分析与统计相比人工分析大大减少了用时,可以作为一种高效率的分析工具。
本系统目前只实现了OOXML格式字处理文档的功能点统计分析,仍有很大的扩充空间以分析不同格式标准的文档。
参考文献:
[1]
文档评论(0)