- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Internet的智能信息检索技术 计算机应用技术专业论文
广西师范大学
硕士学位论文
基于Internet的智能信息检索技术研究
姓名:傅赛香
申请学位级别:硕士
专业:计算机软件与理论
指导教师:严小卫摘要随着Intemet的快述发展,特别是www的飞速发展,网络成为了一个全球最大的分布式的信息库,
摘要
随着Intemet的快述发展,特别是www的飞速发展,网络成为了一个全球最大的分布式的信息库, 为信息共享、资源共享提供了一个良好的平台。但随着大量的信息涌入网络,信息的查找与获取也就变 得越来越困难了,出现了“信息迷航”、“信息过载”等问题。作为web上的信息检索工具—搜索引擎
也面临着极火的挑战,本文主要就这一智能信息检索工具所涉及的关键技术进行了深入研究,重点从理 论上研究了开发新一代的信息检索系统所面临的问题及解决方案。
本文的研究内容及所做的突破性:L作如F: (1)分析了当前信息检索技术的现状,指出了当Bi检索技术的不足。 对网络检索:l二具及技术进行了全面同顾,井总结了当前检索工具所存在的主要问题及局限性,包括;
检索方式不科学、索引方法H;合理、结果提示单一、个’陛化能力羞、智能程度低等。并分析了智能检索 系统的一些特征.系统要能理解信息,也要能了解川户,指山了智能信息检索以概念检索为主,而不是 简单的串匹配。
(2)分析了当b口搜索引擎的系统结构,给出了一个新的智能搜索引擎框架结构。 本文提出了一个智能搜索引擎系统结构,围绕智能化系统,增加了领域知识库和用户知识库,增强
了用户接口界面的功能。指山必须要有知识库的支持爿。能使搜索引擎真正达到智能化效果。 (3)提出了网络信息的搜集算法与更新策略。 R曲ot程序是信息搜集与信息更新的基础,本文详细地叙述了其搜集信息的排除标准、搜索策略及
搜索算法设计,并给出了一个最近更新策略,保证能在数据信息变更的最短时间内进行检测、下载、更 新,人人地避免死链接、无效链接,提高了搜索引擎的查询性能。
(4)突破关键词索引方法,提出“属性+内容+结构”的索引方法,并给出了属性、内容、结构的
蠢洵语言。
目前的关键词索引方法不符合语义理解的需要,网络信息的半结构化、无结构化,也使得组织、索 引网络信息特别困难。本文提出要对文档的属性、结构、内容进行组织索引,以满足多接口多角度地查 渤需要,这对丁-组织、理解文档信息是有重要意义的。同时还给出了提取文档属性、结构、内容的基本 方法以及相关的查询语言。
(5)分析了q-文汉字的结合模式,提出一个无词典分词7j法。 中文不同1:英文,中文的索引需要经过分词技术。口前的基于词典的机械分词技术由于无法解决未
登陆词州题及歧义问题而不能选剑满意的效果.m基r语法和规则的分词法又由于语法知识、句法规则 十分笼统、复杂而尚未能真止进入实际的分词系统中。本文基于web环境提出了一个无词典分词方法, 它绕过了语言语法学方面的局限,通过对词频的统计、过滤,剥于提取中、高频度的词条具有良好的分 词效果,也部分解决了新词问题。还引入词条的支持度、置信度概念,以及取大、取小、取中原则,用 这二个过滤原则来过滤掉非真实词条,其分准率是较高的。该方法不需要训练,不需要有复杂的语言语 法学知识,不需要有庞人的词典支持.分词速度快,具有重要的实用价值。
(6)研究r个性化技术,提出建立客户模型。 个’l生化技术作为未来商业服务的一个发展趋势,具有重要的研究意义。同时个性化技术用于信息检
索也是必然的趋势,本文对个性化技术的各个方面:个性行为、模式获取、用户模型、兴趣模型、模型 维护进{_了分析研究,并提出了以客户模型代替刷户模型的观点,给出了一个基本的客户模型示意图。
关键词:智能信息检索、个性化、自动分词、搜索引擎
AbstractWith
Abstract
With the f酏t deveIopment of Internet/Intranel,especiaIIv WWW,the network.w11ich provides sound pIaCfoml for information and sharing,haS become the Iargest dist—butive information warehouse a¨ Clle world。ButInternet users九nd that it is beconlin譬more and more di茄cult to search and Zain inforlnation ava钉abIe,as Iafge amount ofinformaIion rushes onto the Intemet such that lot ofproblems,
such as“mfb肿ation mjsnaviga“onand“mform
您可能关注的文档
- 基于IMU穿戴式设备的手语识别研究-机械工程专业论文.docx
- 基于InSAR技术的采矿区道路形变研究-地图学与地理信息系统专业论文.docx
- 基于InstLink2系统的P2P流媒体信道研究-通信与信息系统专业论文.docx
- 基于InSAR图像的高程重建及其立体目标的可视化技术-电子与通信工程专业论文.docx
- 基于InP工艺的60GHz片上集成天线研究-电路与系统专业论文.docx
- 基于Intel 80C196KB控制的矿用移动变电站低压真空馈电开关测控系统的研究-电机与电器专业论文.docx
- 基于InSAR的沂沭断裂带形变监测与分析-大地测量学与测量工程专业论文.docx
- 基于InSAR数据当雄地震形变场提取和断层滑动速率反演-大地测量学与测量工程专业论文.docx
- 基于Intel16位MCU及CPLD的电磁流量计设计-微电子学与固体电子学专业论文.docx
- 基于intel+80c196kb控制的矿用移动变电站低压真空馈电开关测控系统的分析-电机与电器专业论文.docx
- 基于Internet的机电设备远程监控技术研究-计算机应用技术专业论文.docx
- 基于Internet的民航发动机故障诊断系统的研究-交通信息工程及控制专业论文.docx
- 基于Internet的汽车检测系统远程维护技术研究与实现-交通信息工程及控制专业论文.docx
- 基于Internet的机械设备的远程故障诊断中若干问题的研究-机械电子工程专业论文.docx
- 基于Internet的汽车电子远程诊断技术研究-控制理论与控制工程专业论文.docx
- 基于Internet的流媒体传输控制系统(TCS)的设计与实现-计算机应用技术专业论文.docx
- 基于Internet的温湿度测控系统设计与实现-电路与系统专业论文.docx
- 基于Internet的大型矿山设备选型设计系统研究-机械设计及理论专业论文.docx
- 基于Internet的物流信息交换新技术开发研究-机械设计与理论专业论文.docx
- 基于Internet的特种罐体焊接机远程故障诊断系统的设计与实现-控制理论与控制工程专业论文.docx
最近下载
- DB32_T 3715-2020 技术交易平台服务规范.docx
- T_CI 263-2024 水上装配式钢结构栈桥(平台)施工技术规程.docx VIP
- 职业技术学院《多轴加工技术》课程标准 数控技术专业.docx VIP
- 14X505-1火灾自动报警系统设计规范图示.pdf VIP
- 《人大代表为人民》课件.pptx VIP
- JC-T 799-2007 装饰石膏板-建材行业标准.pdf VIP
- 2025军队文职考试考前30分【数学1】.pdf VIP
- 湖南省2026届高三九校联盟第一次联考英语试卷(含答案解析).docx
- 中心静脉导管相关感染指南.pptx VIP
- NBSH_T 0162-2021 石油馏分中碱性氮含量的测定 颜色指示剂法.docx VIP
文档评论(0)