- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于SDD中文农业网页搜索系统的设计与实现 为什么搜不到满意的结果? 关键词的无奈! 研究内容 “二次主题漂移”检索模式 双引擎检索系统 SDD(semi-discrete decomposition ) SDD核心– 矩阵行列式的叠加 SDD外层循环 SDD内层循环 SDD算法改进 SDD 改进算法验证流程 算法验证系统设计 SDD 实验系统 中文农业专业字典 CWT-100G简介 CWT-100G网页测试样本 测试结论 检索模式验证流程 检索模式验证系统设计 二次主题漂移验证 科学数据中心实验数据 一、多词一义(GIS-地理信息系统) SDD原算法第二篇 SDD改进算法第二篇 二、一词多义(cap) 一词多义(cap-共同农业政策 ) 一词多义(cap-防腐剂) 一词多义(cap-群体光合速率 ) 三、精确需求的语义功能 四、验证结论 1、用户检索习惯加一次鼠标点击,负担最小 2、需要用户参与,语义结果与当前用户相关 3、可有效避免多词一义,一词多义问题,提高查全率,查准率。 照本宣科即可 搜索系统是由检索引擎和用户的参与下,共同完成的。 从分析问题的角度,分别从用户和引擎两个角度研究可能出现问题的地方,从观察的现象 提出4个疑问,用户的检索习惯是否有问题,如果有能改变吗,引擎的大而全的页面储备是不够多吗?引擎的设计模式有哪些问题,其中对用户来讲,习惯无论对错一旦形成就很难更改,从目前了解到的数据来看不是不够,而是大而杂的数据把真正有效的数据淹没了 , 我们接着分析剩下的两个问题, 从用户的检索习惯来讲,能够用自然语言提问时最符合用户习惯,即把检索引擎当作的智能提高到人的水平,但是自然语言的解析推理是目前学术界的难题,搜索引擎的提供商也没有办法,这样关键词就成为用户和搜索引擎之间的这种方案。那我们来仔细分析一下,使用关键词会产生哪些问题,从用户的角度看,由于人内在知识储备的不同,以及用户的受教育水平,语言习惯以及情绪等复杂因素的影响,使得对同样的需求可能会使用不同的关键词,不同的需求也会使用相同的关键词来表达,这就发生了检索需求的第一次脱节,反过来在搜索引擎看来由于只能通过关键词和用户打交道,相同的关键词就代表着相同的需求,即使使用统计推理等办法,也是永远落后于用户当前的检索情景点。这就发生了第二次脱节 为解决论文的主题目标和解决当前检索系统面临的实际问题,本文的研究内容分为如下三个部分检索模式上,通过相关性的研究,提出二次主题漂移,在实践上通过结合,Lucene全文检索和SDD语义检索构建一个双引擎系统,同时通过专业化的数据来从内容上提供专业化的数据检索,这三部分就是SDD农搜的基础 信息检索的核心问题是解决信息定位,而使用检索系统的用户是千差万别的,因此本文认为“与己相关”是检索系统设计时的最高标准。设计一种新的检索模式就成为在构建检索系统时在理论层面需要首先解决的。本文认为在以文档为检索目标的系统中,用户检索的目的是查找文档,反过来看任何一篇文档都是对应一个检索需求。考虑到用户在数据检索系统下形成的关键词检索习惯,本文认为含有关键词的文档集可以从用户的角度分为“与己相关”和“与己不相关”两个集合,而这两个集合划分的标准是由用户自己完成的,即每个人有自己的“相关”标准。既然文档的语义主题是明确的,那么以文档来查找文档就成为一种比较可靠的模式。这种“关键词—文档—文档”的过程本文称之为“二次主题漂移”,即由简单的关键词到一个某种程度上接近用户需求的文档是第一次主题漂移,再根据用户自己选择的文档返回相似文档完成第二次主题漂移 Lucene是apache软件基金会jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,利用Lucene提供了API可以轻易的构建一个检索系统,高亮问题,网站直达功能,本文通过根据Lucene线又接口的特点,在外围作了一些工作来解决上述问题,在论文中有详细的描述,语义检索是把一个由经过统计的词频权重向量看作该文当的语义,是基于这样一种考虑,共现词频的出现不是巧合,而是为了表达一个明确的主题信息—语义,语义引擎通过文档之间 内积的运算来寻早相似的语义 公式中的A代表由向量组成的语义空间,半离散矩阵分解通过贪婪算法把源矩阵分解成左中右三个矩阵来解决矩阵文件过大的问题,由于分解生成的向量xy都取自一个由-1 0 +1组成的半离散集合因此称为半离散分解算法, 通过公式可以看出,SDD算法的核心内容是每次计算一个由向量xyd组成的三元组,通过把这三元组乘积出的矩阵行列式进行相加,来达到趋紧源矩阵的 SDD的外层循环,主要是完成(x,y,d)三元组的累加来接近原向量矩阵,具体步骤首先初始化原始矩阵A0 和剩余矩阵R1,由内层循环求解最佳向量XY,根据求解出的XY确定响亮D
您可能关注的文档
- 烹饪微生物学ppt.ppt
- 普通高中课程改革的启示.ppt
- 我们到底需要什么样的排版系统.ppt
- 企业资讯安全ppt.ppt
- 气压传动.ppt
- 气压传动基础知识.ppt
- 我们应具备的网络素养ppt.ppt
- 全国服务业发展会议.ppt
- 无症状高尿酸血症合并心血管疾.ppt
- 全球及台湾新兴产业之未来发展.ppt
- 2025黑龙江大庆市工人文化宫招聘工作人员7人备考题库带答案解析.docx
- 学校虚拟仿真实验教学中心安全管理制度.pdf
- 2025黑龙江大庆市工人文化宫招聘工作人员7人备考题库附答案解析.docx
- 2025年元宇宙行业技术构建及应用硬件设备报告.docx
- 2025黑龙江大庆市工人文化宫招聘工作人员7人备考题库及答案解析(夺冠).docx
- 2025年元宇宙行业技术构建及应用虚拟现实技术报告.docx
- 2025年智能家电互联协议演进与兼容性.docx
- 《2025年卫星数据服务发展报告:气象监测与农业估产商业化潜力分析》.docx
- 2025年户外背包防水功能及雨天出行需求调研汇报.pptx
- 2025黑龙江哈尔滨电机厂有限责任公司社会招聘24人考试模拟卷附答案解析(夺冠).docx
最近下载
- 国开(SC)-数据库运维-形考3(考核内容:第5章~第7章,30%)-学习资料.docx VIP
- 中国视神经脊髓炎谱系疾病诊断与治疗指南解读PPT课件.pptx VIP
- 出口用【箱单+发票】英文.docx VIP
- GB∕T42430-2024血液、尿液中乙醇、甲醇、正丙醇、丙酮、异丙醇和正丁醇检验.pptx VIP
- 部编版小学六年级下册语文单元测试卷全册(含答案).pdf VIP
- 高血压病的护理常规 高血压护理常规.doc VIP
- QUICK-376D-中文说明书使用手册.pptx VIP
- 部编人教版五年级下册小学语文全册单元测试卷(含期中期末试卷).doc VIP
- 2025年部编版小学五年级下册语文全册单元测试卷及答案 .pdf VIP
- GB∕T42430-2024血液、尿液中乙醇、甲醇、正丙醇、丙酮、异丙醇和正丁醇检验.pptx VIP
原创力文档


文档评论(0)