构造一个检索系统.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数学建模 (A) 构造一个检索系统 组号:第三组 摘 要 学术论文是我们不可缺少的学习、研究的参考资料。对于怎样将论文的合理地分类管理和快速准确地检索成了一个重要的研究项目。 针对问题要求:怎样科学合理地将论文进行分类并且能够通过关键字快速准确地检索到相应地论文,我们使用不同地检索算法,建立了两个不同地模型。 模型一 ——矩阵模型,通过ASCII 码将字符数字化,同时构造出字符串的ASCII累加值,并利用矩阵记录关键字的相应的ASCII码值序列;根据矩阵维数的大小,能科学有效地把论文分类并且大大提高了检索地速度;建立关键字相关度,按相关度大小进行论文的输出,提高了检索的准确性。 模型二,模拟网页制作中的搜索引擎与信息获取技术建立模型。为了模型的推广,首先对所要查找的文章进行文件预处理,这样就保证输入的关键词能有效的检索到有关的文章。借用向量模型中的求解关键词在文档中的权重计算方法。这样更能快速且准确的搜索到与关键字有关的文章。然后把录入信息库中的文档进行倒序构造。倒排文件构造除了在搜索速度上具有较好的性能以外,维护起来叶比较简单。利用顺序查找法算法进行倒序文件的搜索。最后用加权后的总指标来评定搜索引擎的性能。 关 键 词: 符号数字化 矩阵模型 相关度 文件预处理 文档倒序构造 算法 总指标 一、问题的重述 根据某次学术会议所收到的150篇学术论文的关键词(key words),将这些论文按照关键字分类,并构造一个检索系统,使得当给出所要查找文献的一组关键词,例如(eigenvalue problem,inverse,solvability)或(risk perceptions,mental models,bias,synergistic risk),即可从上述150篇中找出有关的文章;进一步要求使用的方法应能适用于文献数量更大的。除少量明显错误外,关键词(包括大小写)均原文照录。 二、基本假设 1、为了检索地快速有效,我们不再区分大小写字母; 2、在有限地论文中,相连的ASCII累加值相等的字符串出现的概率是很小的,即可以忽略不计; 3、用户在输入关键词时,我们认为关键词的重要程度和输入顺序同方向变化,即最重要的放在最前面。 三、主要变量符号说明 为了便于描述问题,我们用一些符号来代替问题中涉及的一些基本变量。其他一些变量将在文中说明。 文章的编号 字符串的ASCII累加值 关键字的相应的ASCII码值序列 第篇论文关键字的总相关度 为信息库中文档的数目 关键词在文档中的权重 两个文档的相似程度 搜索引擎的总指标: 表示对这篇文章进行倒排处理后所得的结果 四、问题的分析 题目中主要提到检索系统的三个要求:一是将学术论文进行科学合理地分类;二是输入关键字时,能够快速准确地检索到相应地论文;三是所建模型可以大量推广,应用到文献数量更大的情行。 我们分析认为,论文科学合理地进行分类,不仅仅是为了管理上的方便,更大程度上是为了提高检索的速度;论文篇数和关键字都比较多,系统能够准确地记录下所有信息,所需要地存储空间也较大。因此,关键字进行数字化,并用一个个矩阵记录下来显得格外重要。一是助于关键字的位置符号化,利于数据管理,关键字与论文的统一,不会与其它论文混淆;二是节省了存储的空间。系统能够准确而不遗漏地将相关地论文检索出来,其输出的信息量也比较大,对于用户来说不易于筛选。因此,建立关键字相关度,并按从大到小排序输出,才能更大地提高准确性。 五、模型建立与求解 模型一、矩阵模型及相关度 (一) 准备工作:为了更好的建立模型一,我们做了如下准备工作: 字符处理:为了简化模型,我们将字符a,b,c……z不区分大小写重新附上ASCII码值如下: a A 1 b B 2 c C 3 . . . . . . . . . z Z 26 为了便于研究,对于特殊符号,如破折号、罗马数字等,我们统一附值为0。 关键字顺序处理:为了给模型带来方便,我们将每一篇论文中的关键字按字符串的个数重新排列如下: 1.Drazin inverse,moore-penrose inverse,reverse order law; 2.applications ,Nonlinear approximation problems; 3 Hermite element,Wilson element,Carey elemen

文档评论(0)

克拉钻 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档