- 1、本文档共19页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web挖掘技术在图书馆采访中的应用【讲座】
Web挖掘技术在图书馆采访中的应用 北京物资学院图书馆 范媛静 2012.10 这篇论文来源于解决采访实践中遇到的问题 采访中的实际问题1——图书需求 图书馆除补充专业类图书外,还需要满足读者其他阅读需求。在一定时间内需要一些“高质量”图书补充馆藏。 内容质量 出版品质 读者需求 采访中的实际问题2——书目需求 目前,图书馆采访方式有圈选书目、现采、网络采购等方法,最主要的还是圈选书目,使用的大多是电子书目。 电子书目的特点 时效性 快捷性 生动性 灵活性 内容丰富 电子书目需求的变化 很多图书馆在其网站上做了图书荐购系统,让读者来圈选图书。这就需要大量适合读者需求的电子书目,甚至是图文并茂的适合读者阅读习惯的书目信息,而不仅仅是生硬的题名、ISBN号、内容介绍、适合人群等内容。 采访中的实际问题3——馆配商 图书馆采访直接接触的就是馆配商,馆配商提供的电子书目不能完全满足图书馆采访需求 1.存在利益的驱使 2.专业性较差,提供的电子书目与读者需求存在差异 采访中的实际问题4——出版社 出版社只做自己出版社所出图书书目,小出版社甚至没有自己的电子书目,只有纸质版。 书目质量良莠不齐 图书类别不全 没有统一的电子书目平台 面向书商 采访中的实际问题5——自制电子书目 自制电子书目费时费力,一般用作少量书目的制作,满足不了当下集中采访的需求。 1.重复性拷贝、粘贴数据; 2.不断的人工判断; 3.自做100多条书目/人/天; 4.书目内容简单,一般包括题名、ISBN,用作查重。 解决办法 有什么好办法解决自制电子书目的难题呢? 利用计算机程序自动挖掘图书网站、书评网站的信息资源,自动生成对应的电子书目信息,达到图书馆采访员省时省力做出符合读者需求的电子书目、从而采访到“高质量”图书的目的。 (利用web数据挖掘技术帮助采访员做出个性化、实用性电子书目 ) 自制电子书目的网络途径 网络时代,网上书店、大众书评网的书目资源丰富,可从各大特色图书网站选取书目信息 1.书评网:各大型网站的书评频道、豆瓣网 2.网上书店:亚马逊、当当、京东商城等 选取书目信息的依据 销售排行 人气点击率 评论情况 图书推荐 图书分类 网上书目信息资源的价值 这些“图书排行”是采访员采书时很好的书目资源,具有很好的参考和利用价值。 以豆瓣网为例 关键技术的实现 1、该程序采取特定对象抓取,选定合适的图书信息网站或者二级代理网站进行页面分析。通过正则表达式匹配方法,优化web挖掘算法,从而实现图书信息自动采集技术; 2、通过对各大图书网站相关类别信息抓取,生成excel文件,并与馆内藏书系统结合,进行查重,得到查重后数据; 3、与网上图书馆的荐书系统的结合 ,生成荐书单,让读者网上圈选。 采访实践对图书馆采访员的新要求 具备较高的专业素质 涉略广博的知识门类 了解现代化技术手段 编程技术 多媒体技术 网络技术 采访员与程序员的合作 采访部与自动化部的合作 图书馆对计算机人才需求的迫切性 谢谢! * * 利用Web挖掘技术自建电子书目的优点 采访员的专业性 Web挖掘技术的自动性 1、满足读者大量的个性化阅读需求; 2、改变了采访馆员的工作状态,由 被动接收数据变为主动搜集数据; 3、使采访员从繁琐的人工劳动中解 放出来,省时省力,提高自作书 单的工作效率; 4、对于构建基于读者需求的决策 采购模式具有重要意义 书目信息挖掘 书目信息挖掘步骤: 1. 通过计算机web挖掘技术编程,在现有知名图书网站上根据排行、销售量、书评、综合排名等信息进行自动数据挖取(主要提取出ISBN、价格、书名、简介等相关信息), 2. 将挖掘的信息与馆藏进行自动查重,把馆藏中没有的书目信息提交采访员。 3. 由采访员或读者进一步衡量挑选从而执行采购。 书目信息挖掘流程示意图 *
您可能关注的文档
最近下载
- 人乳头瘤病毒感染护理.pptx VIP
- 压疮品管圈成果汇报PPT幻灯片.ppt VIP
- 车险承保方案.pdf VIP
- 中华民族共同体概论教案合集(第一讲-第十六讲)附《中华民族共同体概论》课程大纲.doc VIP
- “中华民族共同体概论”课程教学与建设关键问题探讨.docx VIP
- 诸侯纷争与变法运动【课件】.pptx VIP
- 中国高血压防治指南(2024年修订版)_中国高血压防治指南修订委员会__.pdf VIP
- “扬子石化杯”2024年第38届中国化学奥林匹克(江苏赛区)初赛化学.pdf VIP
- 民事诉讼法中案外第三人对执行的异议之诉.pdf VIP
- “扬子石化杯”2024年第38届中国化学奥林匹克(江苏赛区)初赛化学试卷含答案.pdf VIP
文档评论(0)