布尔检索模型的.pptVIP

  • 15
  • 0
  • 约1.47千字
  • 约 17页
  • 2017-08-24 发布于浙江
  • 举报
布尔检索模型的

布尔检索模型; 布尔检索模型;布尔运算符;布尔运算符; 布尔模型在网页查重中的应用;布尔模型在网页查重中的应用;布尔模型在网页查重中的应用;当语料集合较大时,文档之间两两比较的次数就相当巨大,这是所有网页查重算法的瓶颈。在使用布尔模型的网页查重算法中,两篇文档之间是否需要比较取决于它们的相同特征个数而不是文档长度,当特征的总个数差别在阈值d之内的时候,就异或其二进制码;否则不需要比较,直接判定它们不同。 在得到二进制码异或的结果(0或1)之后,在读取文档的过程中建立一个索引。(表1) ;▲其中id代表特征的唯一表示,Doic表示出现了该特征的文档的唯一标识符。当两篇文档相互比较而相异结果为1时,就将它们分别插入它们之间不同的特征链表中;否则,插入相同特征链表中。 ▲当再有新的文档需要比较时,根据该文档中出现的特征,选择应该与它相同的集合,以减少比较次数。;使用这种算法的优点: 由于一些词在所有文档中都大量出现,这些词将不会作为文档的特征值,可以忽略大量常用停用词的影响,如in,and,the等,这样读取文档时就不需要特别过滤常用词,节约了处理文档和提取特征的时间。 特征值的比较结果只有1和0两种状态,节约资源,易于实现。 ;当两篇文档需要比较时,最好的情况就是所有的特征均不同,结果为0,此时的相异度就为1。当有 k(比如设k为0.2)以上特征不同时,则判定

文档评论(0)

1亿VIP精品文档

相关文档