- 1、本文档共20页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎聚类提纯系统
搜索引擎聚类提纯系统Search Engines ClusteredDistilled Outline 背景介绍 设计思想 实现 展望 开发背景 网络信息发达 积聚了大量积聚价值的信息资源 搜索引擎应用 查询资料 行业分析 搜索引擎应用前景光明 搜索引擎现状 返回量大 检索结果过多过杂 挑选定位到自己感兴趣内容困难 重复程度高 挑选出来的信息中,信息率低 我们的目标 使搜索结果 更精炼、更清晰 减轻用户挑选信息的工作量 通用解决方案 获得用户检索式外隐藏的真正目的 跟踪用户检索行为 分析用户操作模型 文本分类 显式分类 例子:天网、Yahoo 站点聚类、内容聚类 vivisomo 本系统方案 在线聚类 按内容聚类 大大减轻了用户选择所需文档的负担,加快了信息选择的速度。 提纯 在聚类过程中将内容过于重复的页面合并,因此用户看到不同的文档将能够获取不同的信息。 几点说明 设计重点:优化搜索结果 不直接从网上爬去网页 直接利用Google、baidu等搜索得到结果 区分主题 在线内容聚类 从多个搜索引擎中取信息源 目的:扩充搜索面 本系统优势 拥有比现有搜索引擎更好的类名概括性、归类准确性 在线聚类 基于摘要和标题聚类,提高了算法效率 得到几乎同样质量的结果 消除冗余 让用户在短时间内获得更多的相关信息 用户界面 主要功能 在用户和系统之间传递数据 生成页面并显示 模版 便于HTML维护 减少CGI程序中的不良代码 切词 基本步骤 调用搜索引擎进行查询 把搜索引擎查询出的每一条结果进行切词 对词进行重新组合,生成Phrase (n-gram),并得到其左右的Phrase列表(聚类用) 生成聚类提纯模块所需的Phrase字典和文档库 规定n=4,为切的词的个数而非字数 切词部分分析 好处 词语的词组有利于提高聚类的效果。 不足之处 切词程序对切词词库的完备程度依赖很大,若词库不够完善,会把很多专有的名词切成不能表达实意的字,最终影响结果 在线聚类 基本思想: 对搜索结果的前几百条进行在线聚类,将结果划分成若干主题,每个类用一个合适的名称加以描述,用户看到的将是若干类名,通过选择和所需信息最相关的类,获得该类的搜索记录。 实现步骤 实现要点 用文档标题和摘要代表整个文档 好处:提高了处理效率,使满足在线聚类的时间要求——响应速度快 按线性回归的方法 ,将5个属性计算出一个综合的值,得到每个类的最终rank 对前面得到的基本类按rank值进行排序。如果两个cluster包含的相同文档占各自文档总数的比例高于一个设定的值,就合并这两个cluster 对于每个类里面的文档,计算其相似度,如果相似度超过一定的值,则认为其是相近文档,合并成一篇 实现效果图 展望 如何更好的提高分词的效率 如何更好的提高聚类的效果 提高切词的效果 调整五个参数的计算系数 寻找更佳的参数 如何更快的显示结果 结果的序列化 谢 谢! 搜索引擎聚类提纯系统 项目小组 * * ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 浏览器 (http request) 输入输出模块 主要功能: 响应用户请求,把用户请求查询字符串发送给分词模块 把分词的结果传递给聚类提纯模块 重构聚类提纯以后的文档,并返回给浏览器 分词模块 主要功能: 1.根据查询字符串调用搜索引擎 2.对搜索引擎返回的结果进行切词 3.构造聚类提纯模块需要的phrase和doc 聚类提纯模块 主要功能: 1. 对每个phrase计算其5项参数值,得到其rank,并对之排序 2. 利用最高rank的phrase作为类名计算其聚类文档 3. 合并冗余的聚类文档 查询字符串 查询结果 分词和文档集合 查询字符串 分词文档集合 聚类提纯以后的文档集合 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
您可能关注的文档
- 引领专业投资 寻找奥运经济的最大赢家.ppt
- 异步电动机的调速控制线路.ppt
- 彩平制作与色彩搭配.pptx
- 影响生猪免疫效果的原因及对策.ppt
- 很好的晚会开场(有倒计时很炫).ppt
- 循环功能的应用5.3.ppt
- 微软 视窗xp嵌入式操作系统介绍.ppt
- 开展高技能人才培养促进创元经济之腾飞.ppt
- 心外_临时起搏器.ppt
- 心理健康二期培训.ppt
- 吉安县公开招聘专职文明实践员笔试备考试题及答案解析.docx
- 2025重庆枫叶国际学校招聘教师笔试备考试题及答案解析.docx
- 游机队电玩自制联网教程-tplink.pdf
- 2025重庆新华出版集团招聘1人笔试模拟试题及答案解析.docx
- 2025宜宾高新丽雅城市产业发展有限公司公开招聘笔试模拟试题及答案解析.docx
- 2025云南保山市龙陵县勐糯镇人民政府招聘合同制专职消防员1人笔试模拟试题及答案解析.docx
- 11.1生活中常见的盐 九年级化学人教版下册.pptx
- 6.1法律保护下的婚姻 高二政治《法律与生活》课件(统编版选择性必修2)(新版).pptx
- 文昌市中小学教师校园招聘29人笔试模拟试题及答案解析.docx
- 10.1.5 常见的酸和碱(第5课时)课件-九年级化学人教版下册.pptx
文档评论(0)