- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[计算机]搜索结果聚类论文:基于Ontology的Web文本聚类研究
搜索结果聚类论文:基于Ontology的Web文本聚类研究
【中文摘要】随着互联网技术的快速发展和个人计算机的普及,目前全世界每四个人中就有一个人使用计算机上网,2010年中国的网页数量高达336亿,其中87.8%的数据是以文本的形式存在。因此对文本信息的挖掘是从互联网上获取知识的重要途径。聚类技术在信息检索领域有着广泛的应用,有很多非常成熟的算法在各个方面承担着重要角色。传统的搜索引擎以列表的形式返回搜索结果,对于一个模糊的、语义不明确的、或者属于多个主题的查询词,不同语义、不同主题的搜索内容可能分散在长长的列表中,用户不得不花费大量的精力和时间从中查找符合自己查询意图的目标结果。这种情况下,一方面降低了搜索结果的质量,另一方面也使用户的满意度大打折扣。研究人员为解决此类问题提供了许多方法,其中对搜索引擎返回结果进行聚类成为解决这一问题的有效途径,并在实践中被不断的完善。Vivisimo ,Infonetware RealTerm Search都是非常成功的商业聚类搜索引擎。搜索结果聚类系统的输入通常是由传统搜索引擎响应用户查询所返回的一个搜索结果集,其中每一个搜索结果由题目、文本摘要和原始页面链接组成。输出是对结果集进行聚类后得到的一组...
【英文摘要】In the first annual ORG forum, Beckstrom pointed that 25% of the world uses the internet by computer today~([1]), a conservative estimate of 1.75 billion. According state council information office minister Chen Wang’s speech: On China’s Internet development and management, the number of Web pages in china has reached 33.6 billion by 2010 and 87.8% is in text form on the Internet~([2]). Obviously, internets infiltrates people抯 learning, work and play well every aspect of life with unima分ginable speed. So te...
【关键词】搜索结果聚类 后缀树 关联度计算 本体 聚簇标签
【英文关键词】search results clustering suffix tree association calculation ontology cluster labels
【目录】基于Ontology的Web文本聚类研究
摘要
4-6
Abstract
6-7
1 绪论
10-16
1.1 课题研究的背景和意义
10-11
1.2 国内外研究现状
11-14
1.3 本文的主要研究内容
14-16
2 Web 文本聚类的背景知识
16-22
2.1 文本聚类
16-19
2.1.1 文本聚类的过程
16-17
2.1.2 文本聚类算法的分类
17-19
2.2 搜索结果聚类
19-20
2.3 搜索结果聚类引擎的结构
20-22
2.3.1 搜索结果获得模块
21
2.3.2 搜索结果预处理模块
21
2.3.3 搜索结果聚类模块
21
2.3.4 搜索结果可视化模块
21-22
3 中文网页的搜索结果聚类
22-31
3.1 后缀树聚类
22-24
3.1.1 后缀树
22-24
3.1.2 后缀树聚类
24
3.2 中文搜索结果后缀树模型的构建
24-30
3.2.1 搜索结果预处理
25-26
3.2.2 识别具有较完整语义信息的短语
26
3.2.3 文本后缀树模型相关集合的定义
26-28
3.2.4 基类关联度的计算
28-30
3.3 本章小结
30-31
4 基于本体的聚类标签提取方法
31-39
4.1 本体的应用
31-32
4.2 基类贡献度计算
32-36
4.2.1 提取高频短语
32-34
4.2.2 基于基类中词语的词性进行权重分配
34-36
4.3 基于本体的提取方法
36-37
4.4 本章内容总结
37-39
5 实验
39-54
5.1 系统构建
39
5.2 实验过程
39-50
5.2.1 后缀树文本模型的演示
39-43
5.2.2 后缀树文本模型的构建
43-50
5.3 结果分析
50-54
5.3.1 评价指标
50-51
5.3.2 对比策略
51-52
5.3.3 结果分析
52-54
结论
54-56
参考文献
56-60
攻读硕
文档评论(0)