基于文本挖掘的轻量级搜索引擎-计算机软件与理论专业论文.docxVIP

基于文本挖掘的轻量级搜索引擎-计算机软件与理论专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
独创性声明学位论文题目:叁王塞奎揎握煎整量拯撞塞曼!墼本人提交的学位论文是在导师指导下进行的研究工作及取得的研究成果。论文中引用他人已经发表或出版过的研究成果,文中已加了特别标注。对本研究及学位论文撰写曾做出贡献的老师、朋友、同仁在文中作了明确说明并表示衷心感谢。学位论文作者:翻勉签字日期:矽z厂年}月沙f日学位论文版权使用授权书本学位论文作者完全了解西南大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权西南大学研究生院(筹)可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书,本论文:口不保密,口保密期限至年月止)。导师签名:签字目期:罗,渺形一象≯罗彳,旧万方数据目录俑要..IAbstract....III第1章绪论11.1研究背景和意义l1.2国内外研究现状31.2.1微软必应搜索引擎31.2.2谷歌搜索引擎41.2.3360搜索引擎.51.2.4百度搜索引擎61.3本论文研究内容和特色91.4论文组织结构一9第2章相关理论32.1文本挖掘32.1.1文本挖掘的概念32.1.2文本挖掘的过程32.1.3文本挖掘关键技术和文本关联分析42.2搜索引擎42.2.1倒排索引技术52.2.2关键词矿一idf权重.62.2.3搜索引擎的性能评价指标72.3本章小结9第3章基于文本挖掘的搜索引擎系统..113.1文本相似度(关联度)的挖掘..113.1.1j于词....1131.2生成两篇文档的单词集合..1I3.1.3合并两篇文档的单词集合..123,14生成两篇文档的特征向量..123.1.5计算两篇文档的余弦相似度..123.2建立搜索引擎的索引133.2.】建立词典倒排索引..133.2.2建立单词和网页的倒排索引..143.2.3建立页面单词权重索引和页面模索引..153‘3处理用户查询.163.3.1查询词纠错.163.3.2找到包含用户查询词的文档集合..163.3.3对候选文档集合进行排序一163.4本章小结.17第4章轻量级搜索引擎的性能优化..194.1利用ep01]模型代替传统的select,poll模型194.2建立用户查询历史纪录缓存.20万方数据4.2.1查询词纠错结果缓存..¨~■¨~.~●~●~●~.●~.¨|=|=¨¨¨¨『:¨O4.2.2查询词和标题摘要缓存..¨~●¨~.~●~●~●~.~.¨¨|:¨¨“¨¨¨l4.2.3标题和标题对应的内容缓存..¨一●¨~.~●●~●~●;|.~.¨一~~一~一一一卫卫214.3改进传统的距离编辑算法.¨~●¨~.~●~●.~●●||.~.¨“¨¨¨¨¨¨|=24.4改进搜索引擎的索引算法.¨~■¨~.~■一●~●||.~.¨““¨¨¨¨¨¨44.4.1实现方法和算法~~●¨~.~●~●~●;|.●~.¨¨¨¨¨¨4一一一4.4.2改进算法试验结果与分析¨~●~~.~●~●~●~.●~.一一~一一一~6一一4.5使用多线程取代多进程.¨~●¨~.~●~●~●|;.■~.¨¨一一一¨¨¨¨64.6本章小结.一~●~~.~●~●~●~.●~.¨¨一¨一一一¨¨6第5章搜索引擎系统实现..一~●¨~.~●~●~●~.●~.¨¨¨¨¨¨¨¨7一5.1系统结构和运行流程图.¨~¨~.~~●~●~~~¨¨¨¨¨¨一¨75.2相关类及其说明.~~~.~~●一●~~.~一一一~一一一~8一5.3功能说明.一~一~.~~●~●~.~.~~~3一一一一一一5.3.1主线程..¨~¨~~~●~●~.~.¨¨一一一¨~一~35.3.2工作线程工作流程..一●一~.~~●~●||.●~.一一~一一一一一~2卫卫卫卫卫卫卫卫3■34~5.3_3缓存线程管理系统缓存..一一●~.~●~.~●~.~.~~~~~35一一一一一5.3.4查询流程一~~一~.;|~●~●~~.~一一一一一一一一3654本章小结.一~一~~~~●~~一一一一一一一一一36第6章实验及结果分析.~~¨~~~●~●~~~~~¨¨37一一一一6.1处理汉字的编辑距离.~;|~~.~~●~~~.一一一~一一一一一376.2建立磁盘缓存文件.~~~~~~●~~~~~~37一一一一一一6.3网页搜索.一~~~~~~~¨~¨..37一一一6.3.1建立倒排索引..一~一一~~~~~.一一.37一6.3.2网页查询功能测试..~~二|~~~.¨.3S一一一一一6.3.3加入缓存管理线程管理历史记录缓存..~.¨¨¨~~¨¨3S一一一...6.4论文实验过程中遇到的疑难问题和解决方案.一¨一一一~~一.....36.5本章小结.一.¨:|¨一~一,...3第7章总结和展望.

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档