- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
面向组织内部的搜索引擎的设计与实现
面向组织内部的搜索引擎的设计与实现
1、相关定义
1.1、特定主题的描述与分词的定义
本小节的目的在于对如何进行主题的描述和如何定义分词这两方面内容进 行介绍。 在本文所设计的网络信息挖掘系统中,采用了词频的权重计算方法,并且在 该计算方法的基础上进行了一些改进。经过上一小节的介绍,已经对 Web 文档 有了一定的认识,在 Web 文档中寻找与主题相关度较高的部分,这样可以针对 这个特点对计算方法进行改进,达到适合本系统的目的。公式(2.3)如下: CW (t , d ) [ *W (t , d ) * P (t , d)](2.3) 其中,α 表示的是词频权重在特征权重中所占的比例,同样的 β 表示的是位 置权重在特征权重中所占的比例。这里的 α+β=1, 表示传统 TF-IDF 方法[25] 所得的权值。根据位置计算的权重用 P(t,d)表示,P(t,d)用下面的公式(2.4)进行 计算: P t,d (w e k *TF(t,d,e k))(2.4) ek TF (t , d , ek )中,t 代表词组数量,d 代表网页,ek 表示网页中的影响特征权值 的标记元素,则, TF (t , d , ek )表示了 t 在 d 中ek 出现的次数。 w( e k )表示对应标 记元素ek的权重。通过上面两公式计算之后得出的结果来选择合适的阈值,然 20 第 2 章 网络爬行器概述 后在本系统中使用。 如何对主题进行描述的问题是一个如何规范用户完整需求的问题,当用户只 针对一个词来让主题网络爬行器爬取相关主题的时候,这时候用户的要求就显得 很宽泛,而且爬行器基本不能按照用户的要求爬行下来相应的网页信息。比如, 搜索”教育”这个词,但是没有对这个”教育”进行”英语”的限定,那爬行器 只会把所有”教育”页面爬取下来,这就可以看出来,还需要对主题进行更为精 确的定义,这样才能使得爬行器爬取到用户想用的特定主题的页面内容。 本文所设计的系统中对主题进行了两个层次的订制,为了使得爬行器爬取到 的内容与用户所提供的主题关键词相近。第一层就是用户所提供的主题关键词, 第二层就是在用户所提供的主题关键词的基础上,进行学习所得到的辅助关键 词,第二层就是为第一层服务,提供更高的准确度。第二层的辅助关键词是通过 以下的方法得到的:先将用户所提供的主题关键词作为搜索页面(如 Baidu、Bing、 Google 等,选择其中的两个)的关键词,进行搜索。然后将搜索得到的前 20 个 网页页面爬取下来。在之后对 20*2 的网页作为与用户所提供的主题相关的训练 页面,将这些页面进行训练,做分词、去非相关词以及词频统计等相关处理。提 取出非用户所提供的主题关键词中出现频率较高的词/句,将这些词/句提取出来, 就是第二层所要得到的辅助关键词。在这两层主题关键词的帮助下,就可以使得 特定主题网络爬行器的爬行效果更为精确。 在爬取的过程中,设定一个权值,这个值是用来影响爬行器爬取的网页的先 后顺序的,这个权值是根据一个网页所包含是否有用户提供的主题关键词或者经 过训练得出的辅助关键词来赋予的。于是,就用权值的高低来对主题相关度不一 的网页进行排序。然后爬行器依次进行爬取。
1.2、聚类定义
人类能够很容易的将对象或模式分组,从而区分它们,但是在网络 时代,处理数据的执行者是计算机,在搜索时,将出现的海量数据分组 是很困难的。聚类就是在没有任何参考的状态下,自动将目标对象分成 不同组的方法。通过把相似的对象归类组成的组合就是类或者簇,也就 是簇就是相似的对象堆积在一起的一个集合[14]。Everitt[15]作了关于概念 说明如下: (1)簇由有相似点的对象组合而成,所以,簇不同,里面的对象也 不类似; (2)簇是采集中点的聚集,只要在一个簇中,任何两点的距离都比, 点与簇外的点的距离小; (3)簇同样可以是不同维度空间的对象的连通,点的密集度也十分 高,它可以用一个交低的点密度空间隔开这些高密度区域。 如果会被聚的对象由一些特征表现,并产生 d 维的特征向量,那么 聚类分析就会由以下几步构成[14]: (1)特征表现:用适当的模式来象征对象,既要全面包括信息,又 要避免不必要信息的包含。通过提取和选择特征,不仅可以使运算的速 度特别快,还可以达到可见的效果; 9 (2)进行模块类似性的测试,进行测试的方法和工具极其重要,通 常状况下进行距离的量定比较常见; (3)对聚类进行不同的分组归类:也就是选择适合的方法来运算和 显示数据对象的结构; (4)选择性地抽取数据:通过不同的聚类,梳理归纳不同紧密度的 描述; (5) 对最后的结果评估。 如上的叙述,聚类的含义主要是对对象进行组合分类,而这些数据 对象具有一定的相似性,这个过程就是聚类。由聚类形成的集合也叫
文档评论(0)