基于Internet的智能信息检索技术 计算机应用技术专业论文.docxVIP

基于Internet的智能信息检索技术 计算机应用技术专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Internet的智能信息检索技术 计算机应用技术专业论文

广西师范大学 硕士学位论文 基于Internet的智能信息检索技术研究 姓名:傅赛香 申请学位级别:硕士 专业:计算机软件与理论 指导教师:严小卫摘要随着Intemet的快述发展,特别是www的飞速发展,网络成为了一个全球最大的分布式的信息库, 摘要 随着Intemet的快述发展,特别是www的飞速发展,网络成为了一个全球最大的分布式的信息库, 为信息共享、资源共享提供了一个良好的平台。但随着大量的信息涌入网络,信息的查找与获取也就变 得越来越困难了,出现了“信息迷航”、“信息过载”等问题。作为web上的信息检索工具—搜索引擎 也面临着极火的挑战,本文主要就这一智能信息检索工具所涉及的关键技术进行了深入研究,重点从理 论上研究了开发新一代的信息检索系统所面临的问题及解决方案。 本文的研究内容及所做的突破性:L作如F: (1)分析了当前信息检索技术的现状,指出了当Bi检索技术的不足。 对网络检索:l二具及技术进行了全面同顾,井总结了当前检索工具所存在的主要问题及局限性,包括; 检索方式不科学、索引方法H;合理、结果提示单一、个’陛化能力羞、智能程度低等。并分析了智能检索 系统的一些特征.系统要能理解信息,也要能了解川户,指山了智能信息检索以概念检索为主,而不是 简单的串匹配。 (2)分析了当b口搜索引擎的系统结构,给出了一个新的智能搜索引擎框架结构。 本文提出了一个智能搜索引擎系统结构,围绕智能化系统,增加了领域知识库和用户知识库,增强 了用户接口界面的功能。指山必须要有知识库的支持爿。能使搜索引擎真正达到智能化效果。 (3)提出了网络信息的搜集算法与更新策略。 R曲ot程序是信息搜集与信息更新的基础,本文详细地叙述了其搜集信息的排除标准、搜索策略及 搜索算法设计,并给出了一个最近更新策略,保证能在数据信息变更的最短时间内进行检测、下载、更 新,人人地避免死链接、无效链接,提高了搜索引擎的查询性能。 (4)突破关键词索引方法,提出“属性+内容+结构”的索引方法,并给出了属性、内容、结构的 蠢洵语言。 目前的关键词索引方法不符合语义理解的需要,网络信息的半结构化、无结构化,也使得组织、索 引网络信息特别困难。本文提出要对文档的属性、结构、内容进行组织索引,以满足多接口多角度地查 渤需要,这对丁-组织、理解文档信息是有重要意义的。同时还给出了提取文档属性、结构、内容的基本 方法以及相关的查询语言。 (5)分析了q-文汉字的结合模式,提出一个无词典分词7j法。 中文不同1:英文,中文的索引需要经过分词技术。口前的基于词典的机械分词技术由于无法解决未 登陆词州题及歧义问题而不能选剑满意的效果.m基r语法和规则的分词法又由于语法知识、句法规则 十分笼统、复杂而尚未能真止进入实际的分词系统中。本文基于web环境提出了一个无词典分词方法, 它绕过了语言语法学方面的局限,通过对词频的统计、过滤,剥于提取中、高频度的词条具有良好的分 词效果,也部分解决了新词问题。还引入词条的支持度、置信度概念,以及取大、取小、取中原则,用 这二个过滤原则来过滤掉非真实词条,其分准率是较高的。该方法不需要训练,不需要有复杂的语言语 法学知识,不需要有庞人的词典支持.分词速度快,具有重要的实用价值。 (6)研究r个性化技术,提出建立客户模型。 个’l生化技术作为未来商业服务的一个发展趋势,具有重要的研究意义。同时个性化技术用于信息检 索也是必然的趋势,本文对个性化技术的各个方面:个性行为、模式获取、用户模型、兴趣模型、模型 维护进{_了分析研究,并提出了以客户模型代替刷户模型的观点,给出了一个基本的客户模型示意图。 关键词:智能信息检索、个性化、自动分词、搜索引擎 AbstractWith Abstract With the f酏t deveIopment of Internet/Intranel,especiaIIv WWW,the network.w11ich provides sound pIaCfoml for information and sharing,haS become the Iargest dist—butive information warehouse a¨ Clle world。ButInternet users九nd that it is beconlin譬more and more di茄cult to search and Zain inforlnation ava钉abIe,as Iafge amount ofinformaIion rushes onto the Intemet such that lot ofproblems, such as“mfb肿ation mjsnaviga“onand“mform

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档