文本特征信息的搜索与分类系统设计开题报告.docVIP

下载本文档

15
0
约5.79千字
约 7页
2017-09-12 发布于浙江
举报
版权申诉

文本特征信息的搜索与分类系统设计开题报告.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

开题报告文本特征信息的搜索与分类系统设计一、选题的背景、意义信息无时不在，无时不有，具有普遍性、载体依附性、价值的相对性、时效性、共享性、可伪性等一般特征。随着信息技术的应用与发展和互联网的普及，庞杂的文本信息流急剧增多，对于我们的认知与决策带来了很大的压力，如何有效地组织和管理这些信息并快速、准确、全面地从中找到用户所需要的信息是当前信息技术领域面临的一大挑战。文本信息要求用户提交查询关键词来查找与之匹配的信息如今，搜索引擎已成为仅次于门户的互联网第二大核心技术。在短短十年的时间内，搜索引擎迅猛地发展起来。随着互联网的普及和网上信息的爆炸式的增长，搜索引擎越来越引起人们的重视搜索引擎已成为一个非常热门的话题。搜索引擎技术现在已成为计算机产业界和学术界争相研究和开发的对象。通过对搜索引擎技术和检索任务方面的词语进行统计和分析，一方面可以反映出学术界对搜索引擎的关注程度，另一方面也能大致分析出搜索引擎的发展现状以及发展趋势。搜索引擎的发展分割成3个阶段第一个阶段里以雅虎为标志，主要依靠人工分拣信息用分类目录搜索信息处于萌芽阶段。此时各种搜索引擎概念相继出现，如目录式搜索引擎、全文搜索引擎、元搜索引擎等。这一阶段，词频相对较高的关键词是全文检索、智能检索、多媒体、图像搜索、语义网络、分类目录、分类主题等。这个时期分类搜索是网络搜索的主流。搜索引擎在第二个阶段里开始迅速发展。最负盛名的搜索引擎当数Google，它在1999年以不可抵挡的势头走向世界依靠机器抓取、分析进行网页搜索带动了新技PageRank和锚文本技术的发展。此阶段的热点词语有关键词检索、倒排索引、全文索引、自动摘要、链接分析等。这段时期链接分析技术、PageRank算法以及Hit算法等如火如荼地展开。人们基本认为Web信息检索开始进入了新一代搜索引擎阶段。第三个阶段里搜索引擎的研究变得非常火热，搜索引擎越来越向智能化、个性化、专业化的方向发展，同时也不断地涌现出新的具有鲜明特色的搜索引擎产品。通过对文本分类、聚类、用户行为分析、分布式、相关反馈、智能代理、查询扩展等高频词的分析，我们可以看出，人工智能、数据库、数据挖掘、自然语言理解等领域的研究有力地促进了搜索引擎的发展。“堆积如山”的巨大的信息矿床进行有效的过滤、开发与综合利用，把信息变成能够方便利用的知识和财富。 NIST（美国国家技术标准局）和DARPA（美国国防高级研究计划局）组织的TREC（文本检索会议）会议是国际上文本挖掘领域的著名评测会议，从1992年起每年召开一次，迄今已经召开了13届。1991-1998年，DARPA资助了TIPSTER文本计划，主要着眼于三项基础技术的评测：文档检测、信息提取、摘要。2003年，DARPA开始启动以机器学习为核心的计划PAL4，为期5年，首期(1-1.5年)投资2900万美元。PAL包含2个子计划：其中，CALO5子计划是整个PAL计划的核心(2200万)，将机器学习技术放到了国家安全的角度来考虑。美国主要大学与公司参加这个子计划。由此可见，对海量网络信息的有效处理和深层次综合利用离不开文本挖掘技术，文本挖掘将成为人们应对信息时代挑战的强大利器之一[3]。二、研究的基本内容与拟解决的主要问题在该系统中要实现文本信息的搜索与分类，就必须期望实现以下功能： 1)美观的搜索界面，按文本关键字搜索； 2)搜索引擎，完成把所要查询的关键字与网上文本信息进行匹配； 3)数据库设计，实现把网上匹配的文本特征信息下载并记录，为显示结果提供依据； 4)结果显示界面，显示项目包括关键字、相似度和网址，并按一定的顺序罗列。研究要求是在已有的专业理论知识和应用能力的基础上，掌握Java编程Web网页）或者无结构（如纯文本）的自然语言文本为对象的数据挖掘。它是从大规模文本数据集中发现隐藏的、重要的、新颖的、潜在有用的规律的过程[4]。文本挖掘首先要从文本中提取适当的特征，将文本表示成计算机能够理解的数字形式。根据处理速度和精度的需要，可以对文本中的特征进行选择优化。然后采用各种文本挖掘方法发现隐藏的知识模式，以满足用户评价标准的模式最终输出，成为指导人们实践的有用知识。文本挖掘之前，用信息抽取技术(Information Ex—traction，IE)进行非结构化的信息挖掘。但随着IE系统的发展，人们认为它更适合利用精确的查询相匹配概念和文字找出关系。IE系统的主要优势在于以下几点：查询的精确，输出结果的透明和直接进入数据库或真实地显示出来。“文本挖掘”这个词通过类似于传统的数据挖掘系统一样被应用到这些系统中。针对IE对自然语言处理的不足，文本挖掘可以通过统计共现方法处理自然语言。文本具有有限的结构，有的甚至没有结构，此外计算机不能直接处理人类的自然语言，所以对文本数据源要进