基于用户自然标注的TFpIDF辅助标引算法及实证研究.PDF

基于用户自然标注的TFpIDF辅助标引算法及实证研究.PDF

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第62卷 第1期 2018年1月 基于用户自然标注的TFIDF辅助标引算法及 ? 实证研究 ■ 陈白雪 宋培彦 中国科学技术信息研究所 北京 100038 摘要:[目的/意义]从用户角度出发,研究基于用户自然标注的TFIDF辅助标引算法。[方法/过程]首先 ? 以核心期刊论文中作者标注的关键词和分类号为源数据,通过对关键词词频进行统计,使用TFIDF算法构建 ? 用户标注词表、形成标引知识库,然后通过IKAnalyzer分词软件对待标引的科技项目数据进行切词和停用词处 理,进而使用TFIDF算法和位置加权算法提取科技项目数据的特征词,最终实现对科技项目数据进行关键词 ? 和分类的同步标引。[结果/结论]实验结果表明,机标关键词与人标关键词的相似比在60%以上的科技项目 数据占总数的68.1%,机标分类号与人标分类号前三位一致的占总数的83.9%,结果表明基于用户自然标注 数据并采用TFIDF算法在关键词和分类标引方面是可行的。 ? 关键词:辅助标引 用户自然标注 TFIDF算法 信息组织 ? 分类号:G254   DOI:10.13266/j.issn.0252-3116.2018.01.017 1 引言 可以是文字,也可以是其他符号[2-3]。用户自然标注 是根据用户已有的知识,结合对文献内容的理解,给出   信息组织是根据信息资源检索的需要,以文本及 能够代表该文本主要内容的标签或词语。目前,自动 各类型的信息源为对象,通过对其内容特征等的分析、 标引抽出的表达文献主题的关键词的准确性偏低,这 [1] 选择、标引、处理,使其成为有序化集合的活动 。其 在一定程度上是因为自动标引使用的知识库通常是依 中,信息标引就是对信息内容进行分析并充分而有效 靠领域专家手工建立的,难以较为全面地将用户使用 地予以揭示。信息标引分主题标引和分类标引,主题 的词语包含进去,其覆盖面和更新速度有待提高。而 标引是依据特定的主题,赋予文献主题标识的过程,主 用户自然标注能够为扩充知识库提供一个途径,将用 题标引可以采用标题语言、叙词语言和关键词语言等; 户对某一领域内常用的概念或主题词全面快速地扩 分类标引是依据特定的分类语言,赋予文献分类标识 充,并尽可能符合用户的使用习惯。因此,研究基于用 的过程。大数据环境下,机器往往需要依据相关的知 户自然标注的机器辅助标引算法,在提高自动标引的 识库,从文本中抽取能够表达文献信息内容的关键词 准确率以及标引结果更加符合用户使用习惯方面具有 或分类号,用于文本检索和分类导航等方面,因此,知 重要意义。 识库的构建是自动标引的重要研究内容之一。   通过用户自然标注构建知识库是自动标引的一个 2 相关研究 重要思路。用户自然标注是用户在无意中为自然语言 2.1 标引相关研究 处理研究的各种资源作了一定程度的义务“标注”,是   国内外对自动标引的研究主要集中在标引算法的 因特网用户对自己的资源或收藏的他人资源添加标签 [4]

文档评论(0)

fengruiling + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档