- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
y
746198
Web聚类技术及其在搜索引擎中的应用
计算机软件与理论
研究生李战胜指导教师杜亚军
摘要
搜索引擎是当前研究的热门技术之一,用户通过输入查询词来获取搜索结
果,从而能够在海量的互联网资源中获取有用信息。然而,当前搜索引擎返回
的搜索结果数目非常庞大,要从这么多的结果中找到有用信息,有时显得很困
难。如何更好地显示搜索结果,更好地帮助用户找到自己感兴趣的信息,是本
文所要研究和解决的问题。
’ 幸运地是,利用聚类技术对搜索结果按主题聚类,将很好地表现搜索结果。
显然,传统的聚类技术一般都是针对数值数据进行的;而对于文本数据,尤其
是Web文档类型的数据,需要新的能够处理高维、实时的聚类算法,并在文本
特征提取和时间复杂废方面有更高的要求。
本文提出的新的聚类算法MyCluster是基于短语和潜在语义索引基础上的
针对搜索结果的模糊Web聚类算法。在MyClustcr聚类算法中采用由多个有序
词构成的短语来建立文档特征向量,雨不是传统方法上用单个词来建立,这样
可以有效地避免数据噪音的干扰,而且还可以明显地降低特征矩阵的维度,缩
减计算时间。Web文档特征矩阵的建立将涉及Web文档的下载和解析、关键短
语和非关键短语的识别和中文分词等关键技术。
Web聚类结果由类标签和类内容构成。每个类标签都对应着许多类内容,
即搜索结果。每个类标签代表着一个主题,显然类标签的可读性,也即主题鲜
明,将直接影响用户查找信息的命中率。当然,类内容是用户获取最终信息的
入口,它与类标签的相关性就很重要。我们采用线性代数中奇异值分解方法来
发现类内容和归纳类标签,使类内很相似,类间不相似,而且类内容很好地关
联了类标签。对形成的类标签和类内容,采用合并和排序策略,将很好地修正
聚类结果。
算法的聚类搜索Bl擎框架及聚类结果评价体系.实现聚类搜索引擎的过程中将
用。我们的聚类结果评价体系通过类标签的可读性、类内容的相关性、类内容
覆盖率和类重叠度等指标,来综合评价一个算法质量的好坏。
通过对比实验,我们发现MyCluster在类标签可读性和类内容相关性方面
有很大地优势,但在类内容覆盖率方面有所欠缺,希望未来将能有所改进,并
在增量聚类等方面作进一步的研究。
关键词:聚类搜索引擎,Web搜索结果聚类算法,奇异值分解,MyCluster
II
Abstract
ofsearch isahotinIR usef
Currently.thetechnologyengine research.Only,a
can fl and somesearch that canrealizethedreamof
results,so
inputqueryget they
numsearchresultsis
informationfrom total of
theuseful Interact.But,the
getting
inthose
isdifficultforuserstofindthe informationresults.
it useful
您可能关注的文档
最近下载
- 2025年文山州砚山县中医医院第十一期招聘(18人)笔试备考题库及答案解析.docx VIP
- C186015【基础】2025年海南医学院105300公共卫生《353卫生综合之医学统计学》考研基础.pdf VIP
- 2025年湖南有色金属职业技术学院单招职业技能测试题库及一套答案.docx
- 中国乙型肝炎病毒母婴传播防治指南(2024年版)解读.pptx
- 有机磷农药中毒.ppt VIP
- 骨科手术护理培训.pptx VIP
- 2025退役分类考试题及答案.docx VIP
- 护线宣传方案课件.pptx VIP
- 2025年文山州砚山县中医医院第十一期招聘(18人)笔试备考试题及答案解析.docx VIP
- SL 557-2012水利基本建设项目竣工决算审计规程.pdf
文档评论(0)