探讨农业知识库系统设计与实现.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
探讨农业知识库系统设计与实现

探讨农业知识库系统设计与实现   摘要:农业由原来的小农经济模式向现代集成化迈进,不断产生农业系统知识,通过农业集成化,提出了农业知识库系统的架构设计这一个新型概念。同时,以农业知识库的设计为基础、引入新型的具有农业系统知识的人才,注重中文农业专业分词器以及查重器设计与实现,结合现代农业具体特点;并给出了中文农业专业分词算法评估和查重算法评估。   关键词:中文分词器 农业网络 知识库 算法评估   引言:农村科技信息综合服务平台是农业科技者创新出来在集成星火科技(12396)和农村远程教育网的基础上,依托互联网的强大的功能,实现互联互通,避免重复建设,融合科技特派工作网络,达到了信息资源共享的目的,这也符合了中国农业摆脱传统的模式向现代化和信息化的拓展。在网络互联的基础上构建了四位一体的农村信息立体网络综合服务体系,即“电话、短信、电视、广播(及时向农业生产者传递信息),网络互动、现场解答(有效的让农业科技者与广大的农业生产者进行及时,可视,更加专业的指导)。   一、系统的结构   在农业知识系统架构设计中,主要考虑可靠性、可维护性、稳定性以及可移植性,主要采用框架中分层结构体系和模块化设计。层间关系的形成需遵循一定的规则,就是分层结构可以将子系统从逻辑上划分成许多集合,通过集合有效减少子系统之间的依赖关系,达到易于维护的目的,有利于系统耦合方式更加松散与稳定。   该系统重要解决下面4项的技术要点:   1、由于农业词汇过于生僻,一般的中文词典较少收集关键词这类词汇,在中文分词过程中,只有准确提取农业关键词,才能进一步提取有效信息。   2、查重器。需要对知识库的知识查重,数据录入时,通过相关软件减少数据冗余。   3、查重速率。在检索过程中,通过对农业知识库中相关条目进行甄别,通过软件计算得到相关度。这是一个复杂的过程,而且对于软件的时间复杂度非常大,要求软件的维护性高。   4、处理方言词汇。一个方言较多的省份,必须考虑方言词汇的转换。系统在分词时,需快速、准确地对方言词进行切分和翻???。   二、中文农业专业分词器设计   分词器的功能是提取关键词,对生僻的农业专业词汇和农业方言词汇,比较有效地提取关键词对增强查重的准确性和系统检索相当重要。用一般的农业词典无法准确地区分,分词器准确率自然很低。系统专门设计了农业专业分词器,以避免生僻的农业专业词汇和农业方言词汇。   分词器对词典的频繁操作比如改、增、删的操作对于词典设计,通过使用汉字GB码来设计词典。方言要先翻译成书面语,所以在数据库里要建立方言词和农业专业词一对多的对应关系。将GB码中6 763个汉字的开头与6 763个区位建立一一相对的联系。   中文农业专业分词算法评估。本系统实现了链表以及数组、树等分词方式,并将其与农业分词算法通过查插入、找、删的3个方面的时间复杂度和操作速率比上进行比较。通过比较表明:本文算法在以上3个方面的时间复杂度均为O(1),其它算法为O(n)或O(n)?O(㏒n)。笔者自行设计了一个哈希函数。其设计过程是:假设有一个词条word,如去掉首字后还剩n个字,用I[j][0]和I[j][1]分别表示第J个字的GB码高位和低位,和其他算法相比,Hash算法最有优势。   三、专业设计农业知识库   农业知识库主要包括棉花、水稻、玉米、油料等12个数据库。每个数据库根据常见的类型分为两个表:特色类型表和加工类型表。构建农业知识库时,需综合考虑知识的可扩展以及数据的安全和负载均衡。另外农产品实时价格数据,还增加了综合管理数据库信息数据库等。   农业知识库中的每条记录由知识组成,而知识的信息主要包括问题的标题、标题分词组、关键词、方言关键词和成因等18个字段。   1、对问答知识定位时,采用二叉树结构。这样可以确保知识库中每条记录有一个字段记录该二叉树的编码。   2、在数据库的设计和使用时,需建立视图来确保数据库使用的稳定性。   3、对每个产业,需构建知识问答、产业专家以及方言词汇转换等6大基本数据库。若该产业需要拓展6个数据库以外的信息,则可以增加一个该产业的子数据库。   四、查重器的设计和实现功能   查重器又名查重机,是用于数据查重的机器。在农业知识库的建立中,查重机担任减少知识库的知识冗余的重担,它控制着知识的入口,对于农业知识库至关重要。在系统中,知识库负责整个平台的咽喉——知识的“出”和“进”,是其核心部分。在知识库系统中,如果想录入知识,系统会对知识库内容查重。通过与库中相关记录的相似度比较,低于或高于某阈值时,该知识将被系统拒绝入库。   1、匹配度的计算公式   问句的问题与知识库记录的标题是否匹配是至关重要的,反向匹配度:设ND为记录词集中的特征项个数,则PD=

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档