- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 30卷 第 6期 临沂 师 范 学 院 学报 2008年 12月
VOl1.30 NO.6 JournalofLinyiNormalUniversity Dec.2008
中文科技期刊数据库文献分类与检索
吕月娥
(临沂师范学院 信息学院,山东 临沂 276005)
摘 要:介绍了一种对文献关键词进行层次聚类的算法,首先把文献关键词聚类为概念,从而生成
一 个概念树,然后用概念向量表示文献,每篇 文献对应一个概念子树.在检索时,采用改进的余弦相似
性方法,根据概念向量计算文献的相似性,把与给定文献最相似的文献返回给用户.用这种算法能很好
地对文献进行相似性检索.
关键词:中文科技期-T数《据库;文献分类;层次聚类;概念树;相似性检索
中图分类号:TP3I1.13 文献标识码:A 文章编号:l009—605l(2008)06—0104一O4
随着网络技术的发展,科技期刊数据库 已经成为人们查询科技文献的主要形式.目前的中文科
技期刊数据库仍限于关键字索引,也因此带来 了诸多不利 .这种模型可 以对文档关键字的权值赋值 。
但无法表达关键字之问的联系 [“,其带来的问题:(1)关键字不能准确表达用户需求 [:j;(2)关键字
不能反映文献 内容;(3)一词多义现象;(4)关键字以同义方式在文中出现 .为了解决上述问题,
本文给出一种层次聚类算法,并讨论了文献相似性计算的方法 .
1工作过程
本文的工作有4个步骤 :(1)抽取中文科技期刊数据库中所有文献的关键词,组成关键词集合;(2)
对关键词集 中的关键词进行聚类,即把关键词聚合为概念类,生成概念树 ;(3)文献用概念树的子树
表示;(4)采用改进的余弦相似性方法,计算数据库中所有文献与用户给定文献之间的相似度;(5)按
照相似度降序把结果文档返 回给用户.
1.1关键词聚类算法
文献主要有 以下几部分组成:题 目、摘要、关键词、正文、其他信息 (文献作者、发表 的刊物 、
时间等),而关键词最能有效地表征文献的主题 .由于查询项和文献的关键词可能存在的同义关系、
概念上下位关系等,采用查询项匹配的检索方式不能有效地对文献进行检索.因此,这里首先对关
键词进行概念聚类 .
聚类在本质上是一种通过对对象集合按照某种规则进行划分或覆盖,从而发现隐含的潜在有用
信息的一种知识发现的方法 .聚类算法有许多种,通常有以下几类 4[1:(1)通过构建类别层次或者构造
一 棵类别树进行聚类的层次聚类算法 5【];(2)以k-Means算法 [0】为代表的平面划分法;(3)以WEBSOM
为代表的 自组织特征映射方法.由于概念及其数量很难预先确定,关键词数量较少,因此采用层次
聚类 比较合适.层次聚类法把类别看作是有层次的,即随着类别层次的变化,类别中的对象也相应
发生变化.层次聚类结果形成一棵类别树 .每个类结点还包含若干子结点,兄弟结点是对其父结点
的划分,因此该方法允许在不同的粒度上对数据进行分类.按照类别树的生成方式,可将层次聚类
法分为两种,一种是融合方法 (自底向上法),另一种是分裂方法 (自顶向下法).融合方法从每个单个
对象出发,先将一个对象看成单独一类,然后反复合并两个或多个合适的类别,它利用了项与项、项
与环境的交互作用,不必预设聚类中心的数 目.文献 [4】给出一种 自底向上的聚类方法,这里采用改
进 的融合方法对文献关键词进行聚类,把文献关键词作为聚类的项.
收稿 日期:2008—09—16
作者简介:吕月娥 (1977一),女,河北故城人,临沂师范学院讲师,硕士.研究方向:信息检索
第6期 吕月娥:中文科技期刊数据库文献分类与检索 105
1.1.1关键词集的预处理 抽取文献集中的所有关键词,组成关键词集合.预处理主要是提取关键词
的词根和删掉停用词.通过去掉项的前缀和后缀提取关键词词根,能更有效地进行聚类,从而提高
文献检索的查全率;通过删掉无意义的停用词,能提高文献检索的查准率和查全率.
1.1.2关键词的层次聚类算法 本算法基于如下假设:如果几个
您可能关注的文档
最近下载
- 成人失禁性皮炎的预防与护理团标解读课件.pptx VIP
- 义务教育法课件.pptx VIP
- 义务教育数学课程标准(2022年版)重点.pdf VIP
- 高校辅导员招聘考试《基础知识》试题汇编(含答案).pdf VIP
- 第十四章烧伤冷伤咬蛰伤.pptx VIP
- FLOEFD 2021(Standalone 版)软件教程-第8章高级模块示例(管内燃烧).pdf VIP
- 未来之路 比尔盖茨.pdf VIP
- 物流园区绩效指标体系.pdf VIP
- 迅达电梯SMLCD人机界面培训5400主板按键操作培训.pptx
- FLOEFD 2021(Standalone 版)软件教程-第7章参数化研究示例.pdf VIP
文档评论(0)