华中赛论文基于层次分析法与多维数据方体的互联网搜索引擎的排名与设计.docVIP

华中赛论文基于层次分析法与多维数据方体的互联网搜索引擎的排名与设计.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
华中赛论文基于层次分析法与多维数据方体的互联网搜索引擎的排名与设计

第七届华中地区大学生数学建模邀请赛 承 诺 书 我们仔细阅读了第七届华中地区大学生数学建模邀请赛的竞赛细则。 我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。 我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。 我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。 我们的参赛报名号为: 参赛队员 (签名) : 队员1: 郑伟杰 队员2: 何 佳 队员3: 姜俊艳 武汉工业与应用数学学会 第七届华中地区大学生数学建模邀请赛组委会 第七届华中地区大学生数学建模邀请赛 编 号 专 用 页 选择的题号: B 参赛的编号: (以下内容参赛队伍不需要填写) 竞赛评阅编号: 第七届华中地区大学生数学建模邀请赛 题目:基于层次分析法与多维数据方体的互联网搜索引擎的排名与设计 【摘 要】 本文针对互联网搜索引擎的优劣排名及个性化设计问题,综合运用层次分析法、相关度分析、多维数据方体、文本分类和聚类算法等方法建立模型并求解,最后对所设计模型进行举例验证以及一般性推广。 对于问题(1),通过查阅资料文献[2]选择较有代表性的七种搜索引擎(百度、搜狗、谷歌中国、360搜索、中国雅虎、搜搜、爱问),及五个评价指标(查准率、查全率、搜索速度、反向链接数、检索功能)建立评价模型I。①运用层次分析法分配五种评价指标的组合权重,定量描述各指标对引擎优劣评价的影响程度;②参考所查数据对各个指标进行评分,用总得分评判搜索引擎的优劣程度,并选取排名前五的搜索引擎,分别为百度、搜狗、百度、搜搜、360搜索以及谷歌中国。③运用Matlab的矩阵相关性分析功能将模型I的排名结果与[1]的排序结果进行比较,相关系数为0.6118,说明所建立的优劣比较模型准确度较高。 对于问题(2),本文所设计的中文人名搜索引擎是结合了文本分类、文本聚类、信息提取、多维数据存储等技术的个性化搜索引擎。引擎设计原理为:①搜集并抓取所有与输入姓氏相关的网页,去除与主题无关的噪声数据,从网页中提取职业、居住地址、工作单位三个人物属性,划分不同人物;②构建语句-词条矩阵;③对所得划分进行补偿式信息提取的主题文本分类,再通过使用语句-词条矩阵聚类算法进行文档归类,构建多维数据方体;④利用MDX查询语言下钻获得搜索关键字,将人物信息以层次化结构展示给用户;⑤Matlab编程链接到数据库并检测链接是否正常。⑥多次输入不同的中文姓氏(程东、李远志、潘长河),对所设计的中文人名搜索引擎进行验证,发现其对人物信息的查全率和查准率是准确可靠、能够满足用户期望的。 对于问题(3),本文从应用技术与设计方案两个方面对(2)中的个性化搜索引擎进行一般性推广。①设计中采取了多维数据、信息提取以及文本聚类等先进应用技术,此类方法可推广到其他的模型建立与设计中,以提供一系列使用方便的数据抽取和数据转换工具,简化工作、增强可行性;②(2)的搜索引擎主题鲜明、目的单一,可以分析、重组数据,基于以上优越性,可将本搜索引擎的设计方案推广到其他种类引擎的设计中,例如成语搜索引擎、歌曲搜索引擎等。 关键词:层次分析法 文本分类 聚类分析 TFIDF分析 最邻学习算法 问题的叙述 1.1 问题背景 随着互联网的高速发展和普及,人们越来越依赖于互联网共享信息和获取信息。同时,网络上的海量信息是我们巨大而宝贵的资源,但是,这些信息格式和内容纷杂多变,又充斥着大量虚假和垃圾信息,搜索引擎技术是高效且方便地利用这些资源的有效手段。在搜索页面中,只要输入你想搜索的内容,比如,mp3、游戏、电影、软件、图片、音乐、新闻、视频等等,或者输入作者名、文章标题、书名或期刊名、出版年月或发表年月、关键词等,搜索引擎会立刻给出符合条件的链接。常见的搜索引擎有百度、谷歌、雅虎等。 1.2 需要解决的问题 参考下面的资料和其它资料,解决如下问题: (1)建立数学模型,对现有互联网搜索引擎的优劣进行评价,给出排名前5名的搜索引擎,并

文档评论(0)

jiqinyu2015 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档