基于Alfresco的出版社资源库系统的研究与实现.docVIP

下载本文档

0
0
约3.72千字
约 6页
2016-09-04 发布于北京
举报
版权申诉

基于Alfresco的出版社资源库系统的研究与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Alfresco的出版社资源库系统的研究与实现.doc

基于Alfresco的出版社资源库系统的研究与实现　　摘要：针对出版社内资源采集渠道不便，资源管理混乱等问题，本文使用开源资源库Alfresco开发全新的资源库系统，实现了对社内资源的重新整合与统一管理。特别是，提出词语语义相似度加权的TextRank方法对采集到的文本资源进行自动标注，这对数字出版中教材的创作有着非常大的帮助作用。　　关键词：数字出版；资源库；Alfresco；TextRank 　　中图分类号：TP311 文献标识码：A DOI：10.3969/j.issn.1003-6970.2015.05.008 　　0 引言　　随着计算机技术、通讯技术和网络技术的发展，数字出版业务相对传统出版业务，逐渐显示出独特的优势。外研社正处在由传统出版到数字出版的转型期。数字出版是为数据库而编写内容，更强调了内容数据的重要性和内容的可重复利用性。它将内容拆分成一个个的独立的内容单元，通过模板对这些内容单元进行按需重组，最后由动态发布引擎，生成纸质书、电子书、光盘等一系列的出版产品，实现按需出版业务。因此，资源的采集和初步加工是实现数字出版的前序环节。　　目前，外研社的出版业务中存在以下一些问题。作者编写内容的结构差异，导致了出版社在处理作者交稿的时候，需要占用很大的精力去处理内容结构差异，同时，资源采集渠道的不便也会影响资源采集的数量和质量，也不便于出版社实现采集的资源的全社使用和统一管理。社里目前只是对资源进行简单地存储和基于文件夹的分类，缺乏对资源的描述，使资源的可利用性差。所以，本文设计实现了一个面向互联网和内网的资源采集、资源标注等综合型的资源库系统，可以提供方便快捷的资源上传、资源转换功能，在很大程度上减少出版社收集资源的时间和人工成本。本文还使用词语语义相似度加权的TextRank方法对社内的教育资源进行基于知识点的自动标注，方便创作者按照教学目的对内容资源进行检索和重新组织，这对数字出版中教材的创作有着非常大的帮助作用。　　1 系统功能设计　　1.1 总体功能模块　　本文重点对外研社的出版生产业务过程进行了详细的调研，设计出的资源库系统由资源管理、资源加工、用户管理、日志管理四大功能模块组成。详细见图l所示。　　（1）资源管理模块主要提供资源的上传下载、查看预览、查询等；　　（2）资源加工模块主要提供对资源的格式转换拆分和资源的知识点标注；　　（3）用户管理模块主要提供对用户的权限、信息的编辑和查询；　　（4）日志管理模块负责记录用户行为，包括登陆、查看数据、下载数据、使用数据等。　　1.2 资源知识点标注　　资源加工模块提供对资源的知识点标注。资源知识点标注是资源智能化的重要体现方式之一。外研社资源主要包括各类大中小学教材教辅，文本资源占绝对大部分，每个文本资源内部都有一定的知识结构。经过知识点标注的资源具有功能上的独立性。方便创作者按照教学目的对内容资源进行组织。编辑人员的专业领域知识往往不够完备，知识点标注易受主观因素影响，使标注的准确度降低。人工标注还要耗费一定的精力和体力，工作效率会降低。因此，本文提出了资源的知识点自动标注。　　关键词是表达一个文档核心意义的最小单元。本文选择文本关键词作为知识点。选择适当的关键词提取方法就显得非常重要。目前的关键词提取方法分为有监督的方法和无监督的方法两大类。有监督的方法需要通过训练语料构建模型实现，无监督的方法仅借助于词语之间的关系直接从文本本身提取，无需训练过程，计算速度快，应用较为方便。考虑到在上传文档资源时，自动完成关键词的提取，无监督方法既可以保证提取关键词的准确性，又能保证计算的快速性，因此本文选用无监督的方法实现关键词的提取。TextRank方法其中的代表，在众多无监督关键词提取方法中表现出卓越的性能。本文对传统的TextRank进行改进，使用词语语义相似度加权的TextRank关键词提取算法，使其更加适用于知识点的标注。　　资源库提供基于知识点的查询。在输入查询检索词后，首先将检索词与知识点关联网中的知识点进行匹配。知识点关联网是以树形结构表示知识点之间关联的网络。若匹配成功，则选择该知识点的上一级知识点一同作为检索词抛给搜索引擎，进行资源的知识点检索，这样可以检索到相关资源。　　2 资源库架构设计　　本系统主要是基于外研社内网和互联网，除了为社外人员提供提交资源的入口外，主要为社内工作人员搭建一个共享社内数字资源的平台。因此决定采用browser/server（简称B/S）结构的设计思想。Alfresco一款优秀的开源资源库，是一个完全的Java应用程序，基于J2EE框架，如图2所示。它是B/S结构。Alfresco中的内容应用程序和web应用程序都是基于内容存储库的服务上