基于SDD中文农业网页搜索系统的设计与实现.pptVIP

下载本文档

2
0
约1.29万字
约 34页
2017-06-25 发布于湖北
举报
版权申诉

基于SDD中文农业网页搜索系统的设计与实现.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

* 在检索结果的前几名中都是描述有关共同农业政策（Common Agricultrual Polcy）的文档 * 从检索结果中看SDD算法和SDD改进算法的检索结果中的标题内都共同出现了“保鲜”。防腐剂与保鲜这种一一对应的关系通过SDD语义检索被智能的搜索出来 * 从检索结果中可以很清楚的看到，SDD改进算法仍然能够将原文档排名自第一位，而且检索结果中的标题内基本上都含有“棉花”，形成鲜明对比的SDD原算法检索结果不但没有把原文档排在第一位而且排名在前的文档根棉花也毫无任何关系，从这种结果的对比中可以看出SDD改进算法不但提高了运算性能，而且在精度上也可以超过原算法 * 从检索结果中可以明显看到SDD改进算法不但仍然能够将原文档排名在第一位，而且第二篇文档的标题“我国畜牧业开始大调整”内容也与原文档接近，后继排名的文档也大多含有“畜牧业”字样，说明SDD改进算法能够较好的保证这种主体相关性。与此形成鲜明对比的是SDD原算法在排名上不尽如人意，而且主题倾向性也不明显 * 目前SDD在三个测试集合上通过验证分别是 8万词乘4千篇文档，10万词乘3万篇文档和17万词乘11万篇文档3个级别，分解后的矩阵占用空间分别是原来的1/4，1/10和1/20。下一步在做二十万篇文档级别做测试的时候由于生成的原矩阵文件大小超过了1GB，超过了实验机器内存大小，因此没有继续进行。在分解时间上，三个测试样本分解时间是15分钟、34分钟和110分钟，在可接受范围内。 * 一词多义（cap-群体光合速率） * 三、精确需求的语义功能 * 四、验证结论 1、用户检索习惯加一次鼠标点击，负担最小 2、需要用户参与，语义结果与当前用户相关 3、可有效避免多词一义，一词多义问题，提高查全率，查准率。 * * 照本宣科即可 * 搜索系统是由检索引擎和用户的参与下，共同完成的。从分析问题的角度，分别从用户和引擎两个角度研究可能出现问题的地方，从观察的现象提出4个疑问，用户的检索习惯是否有问题，如果有能改变吗，引擎的大而全的页面储备是不够多吗？引擎的设计模式有哪些问题，其中对用户来讲，习惯无论对错一旦形成就很难更改，从目前了解到的数据来看不是不够，而是大而杂的数据把真正有效的数据淹没了， * 我们接着分析剩下的两个问题，从用户的检索习惯来讲，能够用自然语言提问时最符合用户习惯，即把检索引擎当作的智能提高到人的水平，但是自然语言的解析推理是目前学术界的难题，搜索引擎的提供商也没有办法，这样关键词就成为用户和搜索引擎之间的这种方案。那我们来仔细分析一下，使用关键词会产生哪些问题，从用户的角度看，由于人内在知识储备的不同，以及用户的受教育水平，语言习惯以及情绪等复杂因素的影响，使得对同样的需求可能会使用不同的关键词，不同的需求也会使用相同的关键词来表达，这就发生了检索需求的第一次脱节，反过来在搜索引擎看来由于只能通过关键词和用户打交道，相同的关键词就代表着相同的需求，即使使用统计推理等办法，也是永远落后于用户当前的检索情景点。这就发生了第二次脱节 * 为解决论文的主题目标和解决当前检索系统面临的实际问题，本文的研究内容分为如下三个部分检索模式上，通过相关性的研究，提出二次主题漂移，在实践上通过结合，Lucene全文检索和SDD语义检索构建一个双引擎系统，同时通过专业化的数据来从内容上提供专业化的数据检索，这三部分就是SDD农搜的基础 * 信息检索的核心问题是解决信息定位，而使用检索系统的用户是千差万别的，因此本文认为“与己相关”是检索系统设计时的最高标准。设计一种新的检索模式就成为在构建检索系统时在理论层面需要首先解决的。本文认为在以文档为检索目标的系统中，用户检索的目的是查找文档，反过来看任何一篇文档都是对应一个检索需求。考虑到用户在数据检索系统下形成的关键词检索习惯，本文认为含有关键词的文档集可以从用户的角度分为“与己相关”和“与己不相关”两个集合，而这两个集合划分的标准是由用户自己完成的，即每个人有自己的“相关”标准。既然文档的语义主题是明确的，那么以文档来查找文档就成为一种比较可靠的模式。这种“关键词—文档—文档”的过程本文称之为“二次主题漂移”，即由简单的关键词到一个某种程度上接近用户需求的文档是第一次主题漂移，再根据用户自己选择的文档返回相似文档完成第二次主题漂移 * Lucene是apache软件基金会jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，利用Lucene提供了API可以轻易的构建一个检索系统，高亮问题，网站直达功能，本文通过根据Lucene线又接口的特点，在外围作了一些工作来解决上述问题，在论文中有详细的描述，语义检索是把一个由经过统计的词频权重向量看作该文当的语义，是基于这样一种考虑，共现词频的