- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
用分类法实现搜索引擎对信息的三维定位.pdf
用分类法实现搜索引擎对信息的三维定位
赖茂生李勇
面对海量的网络信息环境,关键词搜索引擎已经不能很好满足用户对信息查准率的要求。
第三代搜索引擎的一个趋势是在关键词搜索的基础上,利用分类法对搜索引擎检索结果分类,
在保证族性检索的前提下,同时较好地满足用户特性检索的需求,提高检索效率。分类法应用
于搜索引擎,描述了信息的语义属性,实现了网络信息空问的立体化,比单纯的荚键词检索进
一步明确了用户信息需求。
1 绪言
经过十几年的发展,互糕网自身的规模毪速增长。从浩瀚的信息海洋中快速检索出用户
需要的信息,一直是互联网需要迫切解决的问题。搜索引擎虽然是目前解决这一阀题最有效
的手段之一,但由于各种原因,搜索引擎越来越不能满足用户的信息需求了。这要求对现有的
关键词搜索技术进行改进,利用分类法对搜索引擎的检索结果进行归类或是聚类,用户从分类
结果中找到自己感兴趣的内容,提高检索效率。
2应用于搜索引擎的分类法
基于关键词搜索引擎的不足,在关键词搜索引擎基础上,运用分类法对检索结果进行再组
织,运用网络信息的语义属性帮助理解用户信息需求。
2.1分类法应用于搜索引擎的模式
分类法应用于搜索引擎采用的技术方案有所不同,但是都有以下性质:
·这类搜索引擎都是构建在关键词搜索引擎基础之上的。
·系统根据关键词的语义属性,对含有关键词的记录进行分析,将其分人某一子类。
·搜索引擎返回检索结果的同时,给出检索结果的分类体系。用户可以根据自己感兴趣
的方面来选择特定分类的搜索结果。
2.2技术分类
实现关键词搜索引擎检索结果的分类,有多种技术方案可以选择。
101
2.2.1根据自动化程度分类
·自动分类系统:此类搜索引擎对信息的处理都是由机器自动完成的,人的参与较少。
这类系统信息处理速度快,但是信息处理质量在目前的技术条件下,还不能非常让人满意。例
如采用向量空间模型的搜索引擎、基于机器学习的搜索引擎。
·人工分类系统:这类系统主要由人来负责对关键词语义信息的标引、分类,虽然效率不
高,但是因为能够保证较高的分类质量,因此在一些专业的搜索系统中,仍然存在并发挥着重
要作用。
2.2.2根据分类表的应用分类
·归类系统:归类系统存在一个既定的分类体系,搜索引擎采集的信息都被归入其中某
一类或某几类中。归类系统给用户提供的信息分类都有类名,归类系统事先将分类结果存放
在索引库中,比较稳定。
·自动聚类系统:自动聚类系统在信息分类的过程中,不存在事先制定好的分类表。根
据网页表示和相似度计算的结果,按照一定的规则机器自动将网页聚成不同的类。因为计算
量巨大,因此此类系统都属于自动分类系统,很少有人工参与。根据聚类的应用的时机不同,
自动聚类搜索引擎可以分为对网页数据进行索引时聚类的系统和在搜索引擎返回检索结果之
后再实施聚类的系统。前者可以利用网页的全文实施聚类,后者一般只是使用网页的网址,标
题和摘要等少量信息。一般而言,前者的结果要准确一些,但是综合考虑,后者的精确度虽然
不如前者,但是成本比较低,实用性更强。
2.2,3根据搜索引擎分类
·基于元搜索引擎的分类系统:元搜索引擎的上作原理是调用其他搜索引擎的结果。因
为对元搜索引擎返回结果的分类必定在返回检索结果之后进行,根据网页的网址、标题和摘要
等信息分类,系统的成本较低。
·基于单一搜索引擎的分类系统:对单一搜索引擎的返回结果进行分类,此类系统必须
分析本搜索引擎的索引信息。
2.3实例介绍
2.3.1 中国搜索(http://www.zhongsou.com)
引擎,将分类法运用于关键词搜索引擎,实现搜索结果的自动归类。
中国搜索的自动归类非常有特色:
·传统分类表中,“移动电话”是作为“家电”的一个子类存在。但是在网络信息密度分
布不均匀的情况下,中国搜索将“移动电话”与“家电”并列作为单独的一类。
·分类之间不满足互斥性:中国搜索属于自动归类系统,检索结果按照自身的分类表归
类。但是此分类表中各类之间信息不是互斥的。例如,在中国搜索分类中“管理”和“贸易”两
个类目下的信息是有部分重叠的。虽然表面上看来此种做法缺
您可能关注的文档
- 用于电磁铸造的行波磁场发生器上磁场分布及其引起的熔体充型特点.pdf
- 用于电网实时数据平台的任务调度服务解决方案.pdf
- 用于电网实时数据平台的任务调度服务解决方案_NoRestriction.pdf
- 用于电脑调色的基础乳胶漆的配方设计.pdf
- 用于痕量硝基苯类化合物检测的PAMAMPt纳米修饰电极的研究.pdf
- 用于皮秒脉冲产生的级联阶跃二极管电路.pdf
- 用于监测快速光激活过程的微型吸收光谱仪的研制.pdf
- 用于相变墙体中的相变材料的研究.pdf
- 用于磷铵系统及污水处理系统中的pH自动监控装置_NoRestriction.pdf
- 用于神经电信号记录的多通道微探针.pdf
- 用创新的理念培养创新的学生.pdf
- 用力学观点观察分析调浆工艺过程+上浆力学之一.pdf
- 用化学剂处理油田采油水的实验研究.pdf
- 用化学方法制备聚吡咯包覆氧化石墨的复合材料.pdf
- 用化学法生产铁青铜复合粉末.pdf
- 用化学灌浆补强加固技术处理黄河直岗拉卡水电站压力钢管.pdf
- 用化工废料配制水泥助磨剂的试验研究.pdf
- 用卡提斯CARTIS水处理设备解决桶、瓶装矿泉水——生产中的第二次污染和成品水持续杀菌问题.pdf
- 用卡提斯CARTIS水处理设备解决桶、瓶装矿泉水——生产中的第二次污染和成品水持续杀菌问题_NoRestriction.pdf
- 用卫星遥感的多光谱信息分析云空条件下的三维湿度场的研究.pdf
文档评论(0)