基于XML的特色数据库发布平台分析-管理科学与工程专业论文.docxVIP

下载本文档

0
0
约4.96万字
约 62页
2019-02-15 发布于上海
举报
版权申诉

基于XML的特色数据库发布平台分析-管理科学与工程专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

山东师范大学硕士学位论文 4.2.1 国内部分 211 院校特色数据库建设情况调查26 4.2.2 特色数据库发展中面临的问题 26 4.2.3 使用统一发布平台建设特色数据库的优势 27 4.3 特色数据库发布平台建设目的及体系结构28 4.3.1 特色数据库发布平台建设的目的 28 4.3.2 特色数据库发布平台体系结构 28 4.4 特色数据库发布平台实现 29 4.4.1 元数据互操作模块的现实 29 MARC 与 DC 29 基于 RDF 的 DC 句法描述 30 基于 XML 的 CNMARC 句法描述 31 XSLT CNMARC XML 文档转换为 DC XML 文档 33 将 XML 文档中的数据导入关系数据库 34 4.4.2 用户行为日志挖掘模块实现 37 K-means 算法运算过程 37 K-means 算法设计 38 实际应用 41 第五章总结与展望 43 5.2 已经完成的工作 43 5.2 下一步工作展望 43 参考文献 44 附录一：国内部分 211 院校特色数据库建设情况调查 46 攻读学位期间发表的学术论文 51 致谢 52 ii 山东师范大学硕士学位论文山东师范大学硕士学位论文山东师范大学硕士学位论文山东师范大学硕士学位论文基于 XML 的特色数据库发布平台研究摘要随着社会经济和科学技术的不断进步，图书馆通过建设特色数据库提升服务质量，彰显本馆特色，增强可持续发展的能力和社会竞争力。特色数据库建设可以为高校、研究所等研究机构提供信息情报支持，更好的为地区经济发展服务。本文针对我国部分 211 院校图书馆特色数据库建设情况进行了调查，由于社会经济发展的需要，当前特色数据库建设发展迅速，逐步接近国际水平，但仍然存在重复建设、标准不统一、数据质量不高、维护不及时等问题。这急需通过建立一套可以统一开发并发布特色数据库的系统来解决。虽然现在已经出现了类似 CALIS 这样的综合性数据库发布平台，但是在专业化、覆盖面和功能结构上仍然不能适应特色数据库发展的需要。从 CALIS 系统的发展可以看出，特色数据库发布平台是一个融合了多种技术的综合性平台，具有采集、转换、编目、浏览阅读、跨库检索和数据统计分析等功能，是数字化图书馆功能的延伸。本文选择特色数据库诸多问题中较为突出的两个问题进行研究：如何充分利用不同标准的元数据；如何利用用户行为日志指导特色数据库建设。通过对这两个问题的深入分析，得出解决方案，完成特色数据库发布平台功能模块的设计。本文针对上述问题，采用 XML 和聚类分析两类技术，设计了特色数据库发布平台的两个主要功能部件的模型，完成了以下工作： (1)使用 XML 描述 MARC 元数据，使用 RDF 描述 DC 元数据； (2)使用 XLST 将已描述的 MARC 元数据转换为 DC 元数据； (3)使用 DOM 树将包含有 DC 元数据的 XML 导入关系数据库； (4)设计基于 K-means 算法的用户访问日志的聚类分析； (5)根据聚类分析结果给出图示，为特色数据库建设提出指导性意见。在完成上述工作的过程中，本文着重在以下两点进行了创新性研究： (1)借助 XML 的平台无关性、适合作为数据传递工具的特性，将大量存在的 MARC 元数据转换为更适合网络应用的 DC 元数据。用以解决由于特色数据库建设过程中普遍遇到的元数据格式不统一造成的著录工作量大，建库效率低，元数据资源浪费严重，标准不统一，不利于特色资源的共享和未来的发展的问题。 (2)如何从数量巨大，结构离散的特色数据库用户访问日志中提炼出可以了解用户需求，指导特色数据库选题、建设的信息尚在探索中。本文借助 K-means 算法聚类速度快、易于实现，且适用于文本、图像特征等多种数据的聚类分析的特点，提出了解决方案。 I PAGE PAGE IV 本文试图通过这两个主要功能部件的模型设计，使当前图书馆中使用最为广泛的两种元数据标准 MARC 和 DC 可以自动转换为数据库字段信息，从而减轻特色数据库建设过程中的著录工作量，提高著录效率，使元数据资源得以充分利用；针对用户行为日志进行数据挖掘，分析其中蕴含的规律，进一步完善特色数据库发布平台的功能，指导特色数据库建设方向，提升图书馆服务质量。关键词：特色数据库，XML，元数据，数据挖掘中图分类号：TP392 The publishing platform based on the XML of Characteristic database Abstract Wit