- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
布尔检索模型 XXXX 布尔检索模型 概述 布尔检索法是指利用布尔运算符连接各个检索词,然后由计算机进行逻辑运算,找出所需信息的一种检索方法。 设文本集D中某一文本i, 则该文本可表示为: 其中 为标引词用来反映文本i的内容 设另一用户检索表达式为 对于该检索式,系统响应并输出的一组文本应为:它们都含 有标引词 和 或者含有标引词 和 。 布尔运算符 AND(或*):逻辑与 表示所连接两个检索词的交集部分。例如检索同时含有关键词A和B的集合C:A AND B OR(或+): 逻辑或 表示查找含有检索词A和B之一,或同时包含检索词A和B的信息 : A OR B NOT(或-): 逻辑非 表示含有检索词A并且不含有检索词B的信息: A NOT B 布尔运算符 运算符之间的优先级: NOT AND OR,如检索表达式:雪花 NOT 啤酒 AND 歌曲 OR 小说,搜索结果为:名字叫《雪花》的歌曲或者小说。 利用小括号()可以设置出个性化的检索方程。例如检索出不包含日本在内的有关教育或法律方面的信息: (university OR college) AND ( education OR Law )NOT Japan 布尔模型在网页查重中的应用 网页中的重复现象 微软曾作过一个试验,从网络中下载了150 000 000个网页,发现这些网页中有29.2%是相似网页,而且这些相似网页中还有22.2%是完全重复的(一字不差);另外相似网页十分稳定地存在,一对相似的网页在1O个星期以后极有可能还是相似的网页。 网页重复的弊端 重复的网页降低了网页采集器的工作效率,浪费了数据挖掘工具的资源,使用户的工作效率下降,如何能够尽可能准确地去除这些重复的网页就是我们所面临的问题。 布尔模型在网页查重中的应用 ※关于重复的定义 一直以来,对于重复的定义都非常模糊,没有一个清晰的定义。一字不差可以理解为重复,字面上意义相近也可以理解为重复。对于重复各人都有自己的定义。 ※ Conrad对于重复的定义是:如果两篇文章之间有超过 80% 的用词相同,而且长度相差不超过正负20% ,则这两 篇文章就是重复的。 ※ Pugh(work for Google)对于重复的定义就要简单得多:如果两篇文章之间有超过r个特征相同,则它们就是相似的。 布尔模型在网页查重中的应用 在利用布尔模型的查重算法中,对于重复的定义就是使用Pugh对重复的定义。 该算法是利用布尔模型进行查重,将每篇文章表示为一个二进制数,若是符合比较条件的两篇文章,则将两个二进制数异或,结果中为1的特征则是两篇文章不同的特征,计算出两篇文章中的不同特征个数后,再判断是否需要它们比较。 当语料集合较大时,文档之间两两比较的次数就相当巨大,这是所有网页查重算法的瓶颈。在使用布尔模型的网页查重算法中,两篇文档之间是否需要比较取决于它们的相同特征个数而不是文档长度,当特征的总个数差别在阈值d之内的时候,就异或其二进制码;否则不需要比较,直接判定它们不同。 在得到二进制码异或的结果(0或1)之后,在读取文档的过程中建立一个索引。(表1) 网页重复的判定过程: 布尔模型在网页查重中的应用 ▲其中id代表特征的唯一表示,Doic表示出现了该特征的文档的唯一标识符。当两篇文档相互比较而相异结果为1时,就将它们分别插入它们之间不同的特征链表中;否则,插入相同特征链表中。 ▲当再有新的文档需要比较时,根据该文档中出现的特征,选择应该与它相同的集合,以减少比较次数。 布尔模型在网页查重中的应用 id1 Doic1 Doic2 Doic4 Doic6 … id2 Doic2 Doic5 Doic7 Doic9 … id3 Doic1 Doic4 Doic5 Doic6 … id4 Doic5 Doic6 Doic7 Doic8 … … … … … … … 表一 索引数据结构 使用这种算法的优点: 由于一些词在所有文档中都大量出现,这些词将不会作为文档的特征值,可以忽略大量常用停用词的影响,如in,and,the等,这样读取文档时就不需要特别过滤常用词,节约了处理文档和提取特征的时间。 特征值的比较结果只有1和0两种状态,节约资源,易于实现。 布尔模型在网页查重中的应用 当两篇文档需要比较时,最好的情况就是所有的特征均不同,结果为0,此时的相异度就为1。当有
原创力文档


文档评论(0)