Web信息自动标引方法比较.docxVIP

下载本文档

4
0
约5.04千字
约 11页
2018-01-17 发布于贵州
举报
版权申诉

Web信息自动标引方法比较.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web信息自动标引方法比较

Web信息自动标引方法比较　　(西安科技大学图书馆，陕西西安710054) 　　摘要：文章介绍了自动标引的基本原理和方法。讨论了基于知识库的网页自动标引、基于UCL的网页自动标引和基于遗传算法的网页自动标引方法，并对这三种网页自动标引方法进行了分析和比较。 　　关键词：网页；Web；自动标引；知识库；UCL；遗传算法 　　中图分类号：G252.7文献标识码：A文章编号：1007—6921(XX)07—0250—02 　　随着Internet的快速发展，Web已经成为跨全球的信息源。由于Internet信息量巨大且大量的信息为半结构化的，因此网页信息的标引有着非常重要的意义。目前虽然人工标引准确、检索效率高，但标引速度慢、成本高、标引一致性差，远远不能满足网络信息加工的需求，因而借助于计算机对网页进行自动标引，全面、准确、高效的自动提取网页的信息是十分必要的。本文在介绍自动标引基本原理和方法的基础上对目前已研究的三种web信息自动标引方法进行比较分析。 1自动标引基本原理和方法 　　自从1957年，美国IBM公司的H.P.Luhn首次将计算机技术引入文献标引领域，开创以自动标引为特征的现代标引方法以来，人们试用了各种各样的方法，取得了不同程度的成功，我们可以将这些方法大致的归纳为五类，即：统计标引法、概率标引法、句法分析法、语义分析法和人工智能法。 1.1统计标引法 　　这种标引方法是最早使用的一种自动标引方法，它根据Zipf的“省力法则”(Principleofleasteffort)。统计标引法依据某词在文献中的出现频率与该词的文献区分功能有密切关系假设来选择标引词。一个词在文献中使用越频繁，就越有可能是一个指示主题的词。该方法包括：词频统计标引法、加权统计标引法、N-Gram法等。 1.2概率标引法 　　概率标引法所依据的概率主要有相关概率、决策概率和出现概率。基于相关概率的标引法一是根据包含相同标引词的提问与文献的相关概率来标引划分文献；一是根据具有一定联系的文献之间的相关概率来标引特定的文献。 1.3句法分析法 　　句法分析法利用计算机自动分析文本的句法结构，鉴别词在句子中的语法作用和词间句法关系。它们一般都借助词典来制定词的语法范畴，以此作为句法分析的基础，最终抽出可做标引词的词语。 1.4语义分析法 　　语义分析标引法通过分析文本或话语的语义结构来识别文献中那些与主题相关的词。诸如：潜在语义分析标引法、相信函数模型和语义矢量空间模型等。 1.5人工智能法 　　此方法实现自动标引的目的是让机器从事标引工作中的脑力劳动，即让计算机模拟标引员完成标引文献的工作。 23种网页自动标引方法和技术介绍 　　2.1基于知识库的网页自动标引〔1〕 　　中文网页的自动标引思想主要基于知识库原理。基于知识库的网页自动标引也是目前最成熟和最常用的一种方法。 　　2.1.1设计思路。任何标引——检索语言本质上都是一种主题概念的标识系统。基于知识库的网页自动标引即是基于情报语言学的原理，实施用分类号类目词控制主题词，用主题词控制关键词，构建以概念语义网络——《中图法》为基础的知识库。在此知识库的基础上可以实现分类语言、主题语言和自然语言标引和检索的一体化，实现自动标引和自动分类。 　　2.1.2实施步骤。基于知识库的网页自动标引主要分主题标引和分类标引。无论是主题标引还是分类标引首先要建立知识库。人工采集训练用网页，用计算机预制一个多达几十万至几百万条的分类号—主题词对照数据库，即知识库。下面分别是主题标引和分类标引的步骤： 　　2.1.2.1主题标引。文本信息提取；停用词切分；关键词切分；主题词规范；主题词权值计算及排序。 　　2.1.2.2分类标引。词典从网页文本信息中抽取关键词，完成主题受控标引，经权值计算、汇总、排序后形成该网页的标引主题词(串)；将标引主题词(串)与分类号—主题词对应库所形成的矢量空间模式利用一定程序算法进行相似性匹配，找出该标引主题词(串)所属若干类号；所有类号经归并、整理得出每个类号的相似值，相似值最大的类即为该网页的分类号〔2〕。 2.2基于UCL的网页自动标引〔3〕 　　2.2.1基本思路。基于UCL的网页自动标引技术主要将基于信息内容语义理解和智能实现的URL技术应用到网页自动标引中。UCL技术能够在信源制作阶段对资源内容按照预先设定的标准进行自动归类并贴上标签，用语言表达对内容的要求，建立以人为本的网络空间信息模型，通过内容筛选机制，主动送来有用网页。它根据用户访问某类信息的频度或用户的定制自动向用户提供相关的信息内容，从而改变用户找网页的信息获取方式，实现个性化的服务，并极大地节省用户用于查找网页内容的时间。UCL通常是对资源内容的类别、