摘爨
摘要
随着农业信息化的快速发展,互联网上的涉农信息快速增加。据不完全统计,
目前我国有超过30000个涉农网站。然而这些网站上的信息大多是无组织、多结
构、动态的,这严重影响了农业信息个性化服务的发展。在国家重大科技支撑项
丌发出了针对农业的垂直搜索引擎“搜农”。实践证明,该垂直搜索引擎能够为
用户提供完善的个性化服务。
随着农业信息的爆炸式增长,异常数据也在大量增加,异常数掘的存在大大
降低了垂直搜索引擎个性化服务的质量。这些异常数据包括模糊数据、不完整数
据以及取值异常的数据等。针对不完整数据,(刘峰等2009)提出了一种不完
整数据的处理方法,并把此方法应用于“搜农搜索引擎中。实际应用表明,该
方法能够很好的工作。本文将重点研究如何识别农产品价格数据数值上的异常。
本文重点研究了针对农产品价格数据的异常数据检测方法。本文首先简要介
绍了常用异常数据检测方法,把这些常用的异常数掘检测方法进行一定的修改以
应用于农产品价格数据;同时本文对农产品价格数据的特征进行了详细的分析,
并根据该数掘特征提出了一种针对农产品价格数据的异常数据检测方法;最后对
各个检测方法做了实验。实验表明,本文提出的针对农产品价格数据的异常数据
检测算法能够很好的完成任务。
同时,本文研究了如何把异常数据检测算法应用于垂直搜索引擎中。本文详
细分析了该垂直搜索引擎的系统架构,并着重阐述了该搜索引擎的数掘流向,在
此分析基础上,详细讲述了如何把异常数据检测系统完好的融入已有系统,实现
各子系统的对接。最后,本文分析了该异常数据检测系统的特性,详细分析了添
加该异常数据检测系统后的垂直搜索引擎的数据流向。实际应用表明,添加了异
常数据检测系统的垂直搜索引擎,能够为用户提供更高质量的个性化服务。
关键词:垂直搜索异常数掘检测农产品价格农业信息化
ABSTRACT
ABSTRACT
Withthe ofIT in of
rapiddevelopmentapplication
Internetis tO
onthe increasingrapidly.Accordingincompletestatistics,
agriculture
therearemorethan sitesinChina.Becausemuchofthe
30,000
agriculture—related
informationonthesesitesis and
unorganized,multi—structureddynamic,the
isreduced.Avertical
service of information search
personalizedqualityagricultural
for withthe of whichis
developedsupportproject
engineagriculture‘‘Sounong”is
NO.2006BAD10A1410named“an search basedon
granted agricultureengine
researchis thenationalscienceand
by
原创力文档

文档评论(0)