- 15
- 0
- 约1.47千字
- 约 17页
- 2017-08-24 发布于浙江
- 举报
布尔检索模型的
布尔检索模型; 布尔检索模型;布尔运算符;布尔运算符; 布尔模型在网页查重中的应用;布尔模型在网页查重中的应用;布尔模型在网页查重中的应用;当语料集合较大时,文档之间两两比较的次数就相当巨大,这是所有网页查重算法的瓶颈。在使用布尔模型的网页查重算法中,两篇文档之间是否需要比较取决于它们的相同特征个数而不是文档长度,当特征的总个数差别在阈值d之内的时候,就异或其二进制码;否则不需要比较,直接判定它们不同。
在得到二进制码异或的结果(0或1)之后,在读取文档的过程中建立一个索引。(表1)
;▲其中id代表特征的唯一表示,Doic表示出现了该特征的文档的唯一标识符。当两篇文档相互比较而相异结果为1时,就将它们分别插入它们之间不同的特征链表中;否则,插入相同特征链表中。
▲当再有新的文档需要比较时,根据该文档中出现的特征,选择应该与它相同的集合,以减少比较次数。;使用这种算法的优点:
由于一些词在所有文档中都大量出现,这些词将不会作为文档的特征值,可以忽略大量常用停用词的影响,如in,and,the等,这样读取文档时就不需要特别过滤常用词,节约了处理文档和提取特征的时间。
特征值的比较结果只有1和0两种状态,节约资源,易于实现。
;当两篇文档需要比较时,最好的情况就是所有的特征均不同,结果为0,此时的相异度就为1。当有 k(比如设k为0.2)以上特征不同时,则判定
您可能关注的文档
- 工作分析的方法(一)的.ppt
- 工作计划的重要性的.ppt
- 工商执法人员查办案的件时应注意的问题.ppt
- 工作计划与SMART原缘尿.ppt
- 工商企业管理二的.doc
- 工商执法办案人员应的知应会.ppt
- 工厂环保工作计划的.ppt
- 工商登记前置行政许的可(审批)参考目录(2010年版).doc
- 工商管理学(总复习)的.ppt
- 工具_检索_中文_常拥拿_课件.ppt
- 十五五规划下科研仪器与试剂国产化对创新药研发的成本影响.pptx
- 十五五规划下生物防治技术迎来规模化投资窗口.pptx
- 十五五规划下生物医药基因疗法安全性监测投资机遇及体系.pptx
- 十五五规划下医药领域地理因素与区域流行病学的投资指向.pptx
- 合规红线与避坑实操手册(2026)《NBT 11517-2024矿用提升容器重要承载件无损检测方法与判定规则》.pptx
- 合规红线与避坑实操手册(2026)《NBT 11520-2024煤矿井下顺槽刮板转载机用迈步自移装置》.pptx
- 合规红线与避坑实操手册(2026)《NBT 11537-2024煤矿在用卡轨人车检测检验规范》.pptx
- 合规红线与避坑实操手册(2026)《NBT 11540-2024煤和岩石耐磨性测定方法》.pptx
- 合规红线与避坑实操手册(2026)《NBT 11542-2024煤矿巷道笼式锚索底板锚注支护技术规范》.pptx
- 合规红线与避坑实操手册(2026)《NBT 11541-2024顺层定向长钻孔预抽煤巷条带煤层瓦斯区域防突技术规范》.pptx
原创力文档

文档评论(0)