- 1
- 0
- 约1.11万字
- 约 6页
- 2017-06-02 发布于湖北
- 举报
层次聚类与蚁群优化算法在目录搜索引擎中的应用
贾雪峰,徐慧,任长伟,杜晓昕,尚艳英
(中国矿业大学(北京)机电与信息工程学院 (100083))
E-mail:jiaxuefeng@
摘 要:本文针对目前目录式搜索引擎中存在的问题,提出采用数据挖掘中的层次聚类方法,
同时利用特征提取,将网页文档分成嵌套目录。对于新增加到数据库中的信息,利用蚁群优
化算法动态将其分配到对应的类目下。结合关键字搜索方式,在分好类别中的页面上进行关
键字搜索,必将会极大提高搜索的质量。
关键词:目录式搜索引擎,web挖掘,层次聚类,蚁群优化算法,特征提取
1 引言
搜索引擎作为一种网络信息检索的工具,已经成为一个新的研究投资热点。它要用到
信息检索、人工智能、计算机网络、数据库、数据挖掘、数字图书馆、自然语言处理、多媒
体信息处理等多领域的理论和技术, 具有综合性和挑战性[1]。由于互联网络的急速发展, 越
来越多的用户需要用到搜索引擎, 搜索引擎带来了巨大的商机, 成为现代电子商务发展的一
个必不可少的条件。现在搜索引擎已经引起了世界各国计算机科学界和信息产业界的高度关
注, Google、微软、Yahoo 、IBM 等信息产业巨头目前都投入巨资对其进行研究、开发, 迅
速推动搜索引擎技术朝前发展。在这个过程中,也出现了很多值得注意的问题和研究动向
[2]
按照信息搜集的方法和服务提供方式的不同, 搜索引擎系统可以分为 :(1)全文搜
索引擎:提供全新的、强大的检索功能,它对站点页面文字内容进行全面检索,支持多角度、
多侧面地综合利用信息资源。 目前,国内功能较为完整、提供中文全文搜索的站点为
和等。全文搜索虽然多而全,但没有目录式搜索引擎那
样清晰的层次结构。 (2 )目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员
查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网
站,提供目录浏览服务和直接检索服务。这类搜索引擎的代表是:Yahoo. LookSmart. Open
Directory. Go Guide等。 (3 )元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查
询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自
己的结果返回给用户。这类搜索引擎的代表是WebCrawler, InfoMarket等。
[3]
目录式搜索引擎 目前仍是以人工方式或半自动方式搜集信息,手动提供目录浏览服务
和直接检索服务。这样分类的主要好处就是加入了很多的人工智能,提高了分类的准确度,
但是,在另一方面,却耗费了大量的人力和时间,不能及时地对网上信息进行实际监控,查
全率不是很好。而且WWW上的信息量日新月异,单纯靠用户自己手工查找或通过人力组织所
有的信息己经是不可能的了。所以迫切需要我们提出一种更好的方法解决目录式搜索引擎中
文档的分类。
- 1 -
2 方法的提出
[4]
Web挖掘 是从WWW及其相关的资源和行为中抽取有用的模式和隐含信息。Web挖掘
从以下三个方面进行[5]:(1)Web 内容挖掘, 主要是从Web 文档的内容中抽取出知识。(2 )
Web 结构挖掘, 主要指的是通过对Web 文档的分析,从文档之间的组织结构获取有用的模
式。(3 )Web 用户行为挖掘,主要是通过对Web 服务器的日志文件以及用户信息的分析, 从
而获得有关用户的有用模式。搜索引擎是Web 内容挖掘的一个应用。
本论文主要工作是针对现有目录
原创力文档

文档评论(0)