- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于数据挖掘技术农作物种植常见问题解答系统
基于数据挖掘技术农作物种植常见问题解答系统摘要:该文介绍了分词算法与关联规则算法的相关理论,分析了数据仓库的设计过程,详细叙述了数据仓库的设计步骤以及感想。该系统是从对自然语言的分析来设计整个方案的,系统中包括了分词、权重计算、搜索最优答案和整理数据库等模块。其中分词算法采用了基于词典的双向分词算法;对权重的计算采用了TF-IDF算法;根据权重和关键词匹配搜索最优答案。该系统在准确性和智能性方面相对较高,并具有一定的参考价值。
关键词:数据库;数据仓库;分词算法;权重
中图分类号:TP391文献标识码:A文章编号:1009-3044(2012)17-4036-03
随着新农村建设的加速和农业科学化的发展,农民的知识水平不断提高,科学种植已经成为农业发展的需要。从大量数据中查询有关种植物病虫害的信息和相关策略就显得越来越重要了。而传统的农业科技杂志已无法满足这种需求。基于数据挖掘技术的农作物种植常见问题解答系统应运而生。
利用现有的自然语言理解技术,改革现有的智能答疑系统模式。智能答疑系统通过对农民朋友所提问题的记录分析,可以统计出农作物普遍存在的问题,为农业技术人员发现问题、分析问题、解决问题提供切实可行的理论依据,成为农业增收的有效应用工具。在网络环境下的智能答疑系统采用了友好的自然语言接口,可以轻松自如地提问,及时解决农作物种植过程中遇到的难题,使远程帮助真正起到用户良师的作用,具有重大意义。
1系统相关研究工作
本系统是将文本挖掘技术应用到智能答疑系统(IQAS)中,利用分词,计算权重等技术分析问题和答案,再通过关键词匹配,查找到问题的最优答案。从而对农作物常见病虫害平台系统中的在线答疑历史数据进行整理分析,形成一个可用的数据仓库。数据仓库( Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non- Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策。数据仓库用于面向分析型数据处理,是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘作为数据仓库系统的信息访问部分的主体,是用户赖以从数据仓库提取信息、分析数据、实施决策的必经途径。利用数据挖掘技术中的文本挖掘技术、关联规则算法研究问题和答案的快速匹配问题,查找到问题的答案。由用户用自然语言提出问题,利用分词算法提取出特征词,然后计算特征词的权重,根据词频特征词的权重进行答案的查找。其相关步骤如下:
第一,答疑系统中由农民朋友提出问题,农业技术人员和农民朋友均可以参与回答与讨论。所以问题与答案可能是一对一,也可能是一对多的。首先在数据库中建立一张表Table1,该表采用答疑系统论坛中的问题答案库,其中有所有参与问和答的记录,这是张杂乱无章的表。然后分析该数据库中的文档。
第二,对Table1中的文档进行分词,统计词频,然后计算每个关键词的权重。
采用正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法,对Table1中的文档进行分词。通过该种方法,可以使逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。运用统计方法计算关键词权重,即用文本的统计信息,主要是词频,来计算特征项权重。被广泛应用的权重计算公式是TF-IDF公式:
第三,通过词频和关键词的权重,用关键词匹配的方法查找最优答案。然后table1再次从原始历史数据中整理问题答案库得出一张新表,该表即是问题与答案一一对应的表。这样就建立起基于答疑系统的数据仓库。数据仓库的设计是本系统的核心。
最后,答疑系统的数据仓库实现。
本系统设计实现上主要是研究分词算法和关联规则算法,将其应用于问题中关键词相关度分析,计算出与问题最匹配的答案,最后实现智能答疑。本系统的开发采用C++语言,数据库是Microsoft SQL Server数据库。
基于上述,设计并实现了基于答疑系统的数据仓库。使输入问题可以立即得到答案,系统通过分析数据库中的问题与答案,首先分出关键词,然后通过词频的统计与权重的计算以及关键词的匹配,由系统自动返回答案。另一个创新是答案标准不再人为制定,而是通过词频、权重以及关联度来给予,最终得出最优答案。其中,对中文自动分词部分,研究并实现了对数据库文档的分词,和基于词典的双向分词方法,这种分词方法快速且准确率较高。在计算权重部分主要运用了特征项权重计算公式,并做了相应的改进使之更合理。
从应用的角度看,本系统共分为
您可能关注的文档
最近下载
- 佳能相机EOSR10说明书.pdf VIP
- 公共危机管理(第二版)课件:突发危机事件的善后恢复和重建.ppt VIP
- 2024中国公路货运行业智慧安全白皮书.pdf VIP
- 爱国经典朗诵《何以华夏、何以中国》朗诵稿.docx VIP
- 2025年医学课件-围绝经期综合征针灸.pptx VIP
- 量子通信技术科普讲座模板.pdf VIP
- 第2课 中国人首次进入自己的空间站(1课时)-课件(共23张PPT).pptx VIP
- 2025年轻人情绪消费趋势报告.pptx VIP
- (高清版)B-T 19363.1-2022 翻译服务 第1部分:笔译服务要求.pdf VIP
- 《别了-“不列颠尼亚”》ppt课件21张.pptx VIP
文档评论(0)