基于Alfresco的出版社资源库系统的研究与实现.docVIP

基于Alfresco的出版社资源库系统的研究与实现.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Alfresco的出版社资源库系统的研究与实现.doc

基于Alfresco的出版社资源库系统的研究与实现   摘要:针对出版社内资源采集渠道不便,资源管理混乱等问题,本文使用开源资源库Alfresco开发全新的资源库系统,实现了对社内资源的重新整合与统一管理。特别是,提出词语语义相似度加权的TextRank方法对采集到的文本资源进行自动标注,这对数字出版中教材的创作有着非常大的帮助作用。   关键词:数字出版;资源库;Alfresco;TextRank   中图分类号:TP311 文献标识码:A DOI:10.3969/j.issn.1003-6970.2015.05.008   0 引言   随着计算机技术、通讯技术和网络技术的发展,数字出版业务相对传统出版业务,逐渐显示出独特的优势。外研社正处在由传统出版到数字出版的转型期。数字出版是为数据库而编写内容,更强调了内容数据的重要性和内容的可重复利用性。它将内容拆分成一个个的独立的内容单元,通过模板对这些内容单元进行按需重组,最后由动态发布引擎,生成纸质书、电子书、光盘等一系列的出版产品,实现按需出版业务。因此,资源的采集和初步加工是实现数字出版的前序环节。   目前,外研社的出版业务中存在以下一些问题。作者编写内容的结构差异,导致了出版社在处理作者交稿的时候,需要占用很大的精力去处理内容结构差异,同时,资源采集渠道的不便也会影响资源采集的数量和质量,也不便于出版社实现采集的资源的全社使用和统一管理。社里目前只是对资源进行简单地存储和基于文件夹的分类,缺乏对资源的描述,使资源的可利用性差。所以,本文设计实现了一个面向互联网和内网的资源采集、资源标注等综合型的资源库系统,可以提供方便快捷的资源上传、资源转换功能,在很大程度上减少出版社收集资源的时间和人工成本。本文还使用词语语义相似度加权的TextRank方法对社内的教育资源进行基于知识点的自动标注,方便创作者按照教学目的对内容资源进行检索和重新组织,这对数字出版中教材的创作有着非常大的帮助作用。   1 系统功能设计   1.1 总体功能模块   本文重点对外研社的出版生产业务过程进行了详细的调研,设计出的资源库系统由资源管理、资源加工、用户管理、日志管理四大功能模块组成。详细见图l所示。   (1)资源管理模块主要提供资源的上传下载、查看预览、查询等;   (2)资源加工模块主要提供对资源的格式转换拆分和资源的知识点标注;   (3)用户管理模块主要提供对用户的权限、信息的编辑和查询;   (4)日志管理模块负责记录用户行为,包括登陆、查看数据、下载数据、使用数据等。   1.2 资源知识点标注   资源加工模块提供对资源的知识点标注。资源知识点标注是资源智能化的重要体现方式之一。外研社资源主要包括各类大中小学教材教辅,文本资源占绝对大部分,每个文本资源内部都有一定的知识结构。经过知识点标注的资源具有功能上的独立性。方便创作者按照教学目的对内容资源进行组织。编辑人员的专业领域知识往往不够完备,知识点标注易受主观因素影响,使标注的准确度降低。人工标注还要耗费一定的精力和体力,工作效率会降低。因此,本文提出了资源的知识点自动标注。   关键词是表达一个文档核心意义的最小单元。本文选择文本关键词作为知识点。选择适当的关键词提取方法就显得非常重要。目前的关键词提取方法分为有监督的方法和无监督的方法两大类。有监督的方法需要通过训练语料构建模型实现,无监督的方法仅借助于词语之间的关系直接从文本本身提取,无需训练过程,计算速度快,应用较为方便。考虑到在上传文档资源时,自动完成关键词的提取,无监督方法既可以保证提取关键词的准确性,又能保证计算的快速性,因此本文选用无监督的方法实现关键词的提取。TextRank方法其中的代表,在众多无监督关键词提取方法中表现出卓越的性能。本文对传统的TextRank进行改进,使用词语语义相似度加权的TextRank关键词提取算法,使其更加适用于知识点的标注。   资源库提供基于知识点的查询。在输入查询检索词后,首先将检索词与知识点关联网中的知识点进行匹配。知识点关联网是以树形结构表示知识点之间关联的网络。若匹配成功,则选择该知识点的上一级知识点一同作为检索词抛给搜索引擎,进行资源的知识点检索,这样可以检索到相关资源。   2 资源库架构设计   本系统主要是基于外研社内网和互联网,除了为社外人员提供提交资源的入口外,主要为社内工作人员搭建一个共享社内数字资源的平台。因此决定采用browser/server(简称B/S)结构的设计思想。Alfresco一款优秀的开源资源库,是一个完全的Java应用程序,基于J2EE框架,如图2所示。它是B/S结构。Alfresco中的内容应用程序和web应用程序都是基于内容存储库的服务上

文档评论(0)

ganpeid + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档