- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于共词分析的学科主题动态跟踪相似算法改进研究.pdf
第29 期 情 报 杂 志 V0l1.29 No.1
2010年 1月 JOURNALOFINTELLIGENCE Jan. 2010
基于共词分析的学科主题动态
跟踪相似算法改进研究
ResearchOHSimilra ityAlgorithm ImprovementofDynamic
TracingDisciplinaryThemesBasedonCo—wordAnalysis
赵 凡
(华北电力大学图书馆 北京 102206)
摘 要 针对现有三种基于共词分析的学科主题动态跟踪相似算法都存在不能深入分析主题演化细微关系的缺
陷。以Coulter的相似指数为基础对现有相似算法进行改进研究,并对改进相似算法中涉及的相关问题进行了阐释。
关键词 学科主题演化 共词分析 相似分析 相似算法
中图分类号 G350 文献标识码 A 文章编号 1002—1965{2010}01—0173—04
现有基于共词分析的学科主题动态跟踪相似算法 式 ,因此 ,单凭相同主题数量来分析主题演化情况必然
包括非相似指数、影响和出处指数、相似指数三种类 会漏掉很多细微的演化关系,而这些关系往往对于科
型,三种算法都存在一定缺陷,在进行主题演化分析时 研人员和高层管理者来说是非常重要的。非相似指数
都不能深入分析主题演化的细微关系。针对现有三种 公式只停留在对浅层相同主题的分析中,而没有将对
算法存在的共同缺陷和对主题演化进行深入分析的目 于主题演化分析非常重要的其他类型主题关系分析引
的,笔者决定以Coulter的相似指数为模版进行改进研 入到算法中,进而不能挖掘更为深入、细微的演化内
究,以便能够更加深入、细微地揭示主题演化关系,更 容。
为准确地跟踪学科主题演化轨迹。 1.2 影响指数和出处指数 影响指数和出处指数
1 三种相似算法分析 于 1992年由英国社会学家JohnLaw和J0hnWhittaker
提出,是用以揭示不同时期主题网络的相似关系、挖掘
1.1 非相似指数 非相似指数也称为转化指数 ,是 时间序列不同阶段学科主题的分布结构和不同研究主
由法国文献计量学家 MichelCallon在 1991年提出的 题时间演进情况的相似测度指标。影响指数揭示了前
一 种在演化分析的聚类比较阶段度量两个给定聚类之
期学科主题网络中的词语在后期给定主题网络中所 占
间非相似程度的度量方法。具体计算公式为:
的比例 ,表明前一时间段聚类中的主题对后续时间段
= ,J 2’3,… 聚类中主题的影响程度;出处指数代表 了后续主题网
其 中,G代表聚类i中含有的词语数量,G代表聚 络中的词语在前期主题网络中所 占的比例,揭示了后
类J中含有的词语数量,G,代表聚类i和聚类J共有的 续聚类主题来 自前期聚类中的哪些主题网络L2j。该类
相同词语数量…。 指数的具体计算公式如下:
非相似指数测度聚类之间的非相似程度 ,分析理 影响指数 (巧)= [2m()+Ln()]/2N(i),i,
念与正常的思维方式截然相反。t值越大,则说明主题 J= 1,2,3,…
聚类之间越不相似 ;反之 ,t值越小,则说明主
文档评论(0)