国家图书馆OPACMARC页面数据下载编程思路.docVIP

下载本文档

68
0
约4.68千字
约 8页
2017-08-24 发布于福建
举报
版权申诉

国家图书馆OPACMARC页面数据下载编程思路.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

国家图书馆OPACMARC页面数据下载编程思路

国家图书馆OPACMARC页面数据下载编程思路摘要：本文讨论国家图书馆O（简称：国图）PAC检索结果的页面 MARC数据的收集的程序思路，文中的代码使用C#语言，基于.net框架实现。关键词：下载国图CNMARCC#shy;shy;编程在日常的编目工作中，笔者经常会使用国图的OPAC，因为国图的CNMARC数据权威，收藏的图书种类很齐全，更重要的是任何人都可以免费使用它的检索服务。图书馆采编室很多时候需要为一批数量可观的图书提前准备MARC数据，以为后续的编目工作做好准备，在经费不足而没有购买收费MARC数据源的情况下，充分利用国图OPAC的检索服务进行数据的收集并重新组织成标准MARC数据也许是最佳的数据准备方式。笔者在国图OPAC检索结果的CNMARC数据的重新组装一文中详细讨论了CNMARC记录的重新组装的思路，本文将主要讨论从国图检索结果中下载收集MARC数据的思路。这里主要考虑解决以下三个关键的技术问题。一是如何实现最简化操作方式，也就是说在实际操作中不必频繁地进行鼠标或键盘操作。这是因为就算是简单的复制粘贴操作，重复数百甚至上千次将是非常繁琐的事情。二是通过怎样的逻辑实现直接的结果数据的访问，也就是说从用户的角度来看是怎样才能省略中间的页面以及结果中不重要的内容。三是对得到的结果数据如何进行处理以及存储。下面详细讨论。一、最简化操作这也许是最容易解决的技术问题。为了简化程序的设计，可以选择ISBN为唯一的检索关键字，在这个前提下，构思并设计出一个ISBN列表文件的导入功能，实现所有图书ISBN的一次性导入，每次检索前通过点击某个按钮让程序读入并显示下一个ISBN记录，直到所有ISBN都处理完毕。ISBN列表文件是一个简单的txt文本文件，文件里每一ISBN占据一行。这样的实现方式可使效率进一步得到提高，因为省去了每次都要的ISBN输入操作。但是同时，程序也应该提供单个ISBN输入的方式，这样就能保证输入的灵活性。二、结果数据的访问通过实际的浏览器操作，比如检索ISBN “9787111338017”，选择“中文文献”，选择ISBN字段，确定后浏览器导航到结果页面。观察结果页面的URL，可以发现两个关键串：“2R4Q2UBHG9HPDYS2NEL21626DS9AT67SBQ13JGSIFTA3YAMEIE-04983”和“request=9787111338017”。只需确定这两个串就可以确定整个URL，因为其他都是固定的。更进一步地说，对于前面的加密串，重要的是要确定“-”字符前面的前缀部分。因此，只需保证获取的加密串的前缀正确就可以构造出整个结果页面的URL了。为了获取html页面的特定内容，需要定义GetPageContent和FindOneMatch两个静态方法。基于篇幅考虑，下面仅列出FindOneMatch的代码： public static string FindOneMatch(string pageContent, string pat, string groupName){ string res = ““; Match m = Regex.Match(pageContent, pat, RegexOptions.IgnoreCase); if (m.Success){ res = m.Groups[groupName].ToString(); } return res; } GetPageContent方法的签名为：string GetPage Content(string url, Encoding e)，该方法接受URL和一个Encoding对象，访问指定的URL，以指定的编码返回页面内容。FindOneMatch方法接受页面内容，模式和分组名作为参数，对内容执行一次正则查找，返回匹配的捕获内容。为了获取上述的加密串前缀，只需对 “http://opac.nlc.省略／F／”的页面内容执行一次查找即可。其代码如下： string pageContent = GetPageContent(“http://opac.nlc.省略／F”, Encoding.UTF8); string pat = “]+)\” onsubmit”;string token = FindOneMatch(pageContent, pat, “Token”); string resultURL=“http://opac.nlc.省略／F／” + token + “?func=find-bfind_code=ISBrequest=“ + isbn + fixedPart; 其中的fix