浅析检索系统中错误数据控制.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅析检索系统中错误数据控制

浅析检索系统中错误数据的控制   摘要:基于PC服务器下检索系统的迅猛发展,如何将检索系统中错误数据控制在最小范围以提高检索平台服务纠错质量,一直是非常重要的课题。   关键词:检索系统数据纠错      1、引言   在检索系统中,无论是单片机还是PC服务器,数据在经过系统的加工、存取和传送后,都将不可避免带来一定量的数据错误。为了减少和避免这类错误,一方面要精心选择各种电路、改进生产工艺与测试手段,来提高计算机硬件本身的可靠性;另一方面是在数据编码上找出路,即采用带有某种特征能力的编码方法,通过少量的附加电路,使之能发现某些错误,甚至能准确地确定出错位置,进而提高自动纠正错误的能力。   2、错误情报数据分析   2.1错误数据的种类:   ⑴ 说明书不清楚,有残   ⑵ 缺失性错误   ⑶ 页码顺序颠倒   ⑷ 申请人错   ⑸ 发明人错   ⑹ 申请日错   ⑺ 发明名称错   ⑻ 分类号错   ⑼ 著录项目内容与公开文献不符   ⑽ 权利要求中有乱码   2.2产生错误数据的原因:   根据数据在系统加工、存取和传输时由于硬件与系统条件所限和干扰等因素,数据不可避免会出现各种错误,此时数据将是一份不完整的或不完全正确的数据。通过对出现的误码进行分析得知,主要有随机错误和突发错误,前者是孤立出现的一个错误,而后者是连续产生的一批错误,错误类型有:数据残缺、数据冗余、数据变异。   3、数据纠错流程的设计   3.1数据分组    从终端机接收的数据通常是一连串的数据包,如XML-101228文件包    大小:10.4GB(11,206,211,138字节)   占用空间:10.8 GB(11,699,375,680字节)   包含:189595个文件, 1278个文件夹   服务器地址:192.168.5.123(XML数据服务器)   服务器地址:192.168.5.456(图形数据服务器)   服务器地址:192.168.5.789(文本数据服务器)   服务器地址:192.168.5.005(摘要数据服务器)   数据类型:1新数据、2更新数据、3补差数据   用户名:******   密码:******   这段数据中包括了数据的基本信息,因为数据类型是1,说明这批数据是新数据,如果数据类型是2,说明数据是更新数据;根据你管理员级别及密码,将不同数据传输到相应不同数据服务器中,只有分组正确,将相同数据添加在一起,才能进行准确地进行误码纠正,这是纠错的前提。   数据传输前后一定要进行数据文件核对:文件大小、文件数、文件夹数,记录数等,完全相等。   3.2规则库设计   为减少和避免数据错误,首先要精心选择高性能的检索平台,以改进数据传输与测试手段、提高计算机硬件本身的可靠性。   国家知识产权局在开发的外观设计检索平台就是基于PC服务器的Scale-Out架构, 这个架构采用可扩容的二级存储平台,它支持多种不同的接口类型、有独立扩大性能、有较高数据块I/O性能、高吞吐量及petabyte(约等于 2097 个 500GB 的硬盘)级规模存储容量。实现了给定某一篇专利文本或字串,其检索结果按相关度高低排列,并对专利检索结果进行聚类,将聚类结果进行可视化展示。实验证明它是个性价比最好的检索系统架构。   确定好高性能检索平台后,就要在检索平台的数据编码上找出相应的对策,即采用带有某种特征能力的编码方法,通过少量的附加电路,使之能发现某些错误,甚至能准确地确定出错位置,进而提高自动纠正错误的能力。在检索平台上建立规则库,就是为了让出错数据上带有特殊的误码,以提高自动纠正错误能力。   规则库是规则的集合地,它是对纠错规则的总结和归纳,即纠错规则表。在这个规则数据库中包含了密语表、在线题录信息表、文摘表、全文图形数据库、法律状态表、索引参数表、纠错推理过程表、纠错结果表等,误码纠正结果要存放到纠错规则表中。规则库是在控制系统操作下运行的。当修改的前提条件存在时,根据可操作数的信任度阀值的大小进行数据的纠正与修改。根据数据误码的特点,进行两次扫描,其目的是为了①纠正错误:将系统中的错误编码进行纠正;②语义检测:将不符合逻辑的纠正码进行再次纠正,使其符合实际意义。   3.3纠错步骤   首先整个网络安全体系必须贯穿于网络层、系统层乃至应用层的所有环节;标准化和规范化支撑整个体系,专家共同协商制订出修改数据规则,适用于整个网络;共享、一致的信息资源数据库是基础。   ⑴填写数据纠错流程单,为后续修改数据工作打下良好基础。   ⑵读取数据:读取要修改的数据,对该数据信息进行分组,然后查找分组后数据中误码,根据误码做相应修改。   ⑶

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档