图书自动分类技术研究和实现.docVIP

下载本文档

53
0
约5.77千字
约 13页
2018-10-08 发布于福建
举报
版权申诉

图书自动分类技术研究和实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

图书自动分类技术研究和实现

图书自动分类技术研究和实现　　摘要：提出使用TF-IDF算法与朴素贝叶斯算法相结合，实现图书的自动分类。首先需从互联网中爬取图书信息，主要包括图书基本信息、图书简介、图书目录等；其次，需要对爬取到的图书信息进行预处理，将同类图书的基本信息聚在一起，并进行分词去噪；然后使用TF-IDF算法对每一类图书进行特征提取，获得每一类图书的特征；最后使用朴素贝叶斯算法，并利用训练好的分类特征，计算某本新书的具体分类。实验结果表明，该方法可以简化复杂的图书自动分类过程，提高分类效率，也能保证图书分类的准确性。　　关键词：图书分类；TF-IDF；朴素贝叶斯　　DOIDOI：10.11907/rjdk.161108 　　中图分类号：TP319 　　文献标识码：A 文章编号：1672-7800（2016）005-0150-03 　　0 引言　　在图书馆工作中，最复杂、重要且耗时最长的工作就是图书分类工作。图书分类工作通常是由人手工进行，但是由于图书分类的复杂性、多样性、模糊性等因素，使图书分类工作更加困难，准确性也不能够得到绝对保证，仅仅提高工作人员的素质是根本不够的。随着科技的迅速发展，使用新的计算机技术来解决图书分类问题是十分必要的，其中一种比较有效的方法是采用专家系统技术对图书进行自动分类[1]。但是专家系统需要一个覆盖面广、内容充足的知识库，以及拥有强大推理能力的系统支撑，还需要逻辑严谨、类别清晰的规则库才能保证系统的正常运行。因此，构建专家系统是十分困难的，建立知识库与规则库也需要耗费大量的人力、物力。　　1 图书分类算法介绍　　1.1 TF-IDF算法　　TF-IDF是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用于评估字词对于一个文件集或一个语料库中一份文件的重要程度。　　在一份给定的文件里，词频指某个给定的词语在该文件中出现的频率。该数字是对词数的归一化，以防止其偏向长的文件。逆向文件频率是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语文件的数目，再将得到的商取对数得到。　　某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见词语，保留重要词语。　　1.2 朴素贝叶斯算法　　朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。朴素贝叶斯分类是一种十分简单的分类算法，被称为朴素贝叶斯分类是因为该方法的思想非常朴素。其思想基础如下：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大则认为此待分类项属于哪个类别。　　朴素贝叶斯分类的正式定义如下：①设{a1，a2，…，am}为m个待分类项，而每个a为x的一个特征属性；②有n个类别的集合{y1，y2，…，yn}；③计算当x出现时属于y1的概率，x出现时属于y2的概率，…，直到x出现时属于yn的概率；④如果当x出现时属于yk的概率最大，则x属于yk。　　2 图书分类设计与实现　　图书分类系统主要分为4大模块，如图1所示。　　（1）图书信息采集模块。图书信息采集模块主要用于图书信息的收集工作。主要功能是从图书电商网站中将图书信息相关页面内容采集到本地，并按照图书电商提供的图书类别将采集到的图书信息聚类在一起。　　（2）图书数据清洗模块。图书数据清洗模块主要功能是将图书信息采集模块收集到的图书网页信息进行分析，去除与图书信息无关的内容，抽取出系统需要的图书信息，并将其存入到样本库中。　　（3）特征提取模块。图书数据清洗模块仅仅是将收集到的图书页面信息中与图书相关的信息抽取出来，而特征提取模块主要功能是从入库后的图书信息中提取出每一类图书的特征，并将相关特征存入数据库。　　（4）特征比对模块。特征比对模块的主要功能是根据样本库中的所有图书类别特征将未知类别的图书进行分类定位，得到该书的类别。　　2.1 图书信息采集模块　　图书信息采集模块主要是从图书电商中采集图书的基本信息，包括图书名称、作者、出版社、ISBN号、商品编码、出版时间、内容简介、编辑推荐、经典书评、书摘、前言等信息。　　图书信息采集模块主要分为4个部分：①选择一个图书网站作为数据源；②将此图书网站中的图书分类采集到本地；③根据采集到的图书分类地址，获取到此类图书的列表，再将图书列表采集到本地；④将每一个图书分类中的图书信息采集到本地。图书信息采集工作不是一次性将一个网站内的图书全部采集完，而是分阶段采集数据，采用这种模式的原因如下：①由于现在各个公司都开始对数据进行保护，很多大型网站都做了防爬取工作，当进行长时间、高频率访问时，将获取不到数据，甚至会封IP，从而达不到数据