DSP数据采集系统软件技术的研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
DSP数据采集系统软件技术的研究

DSP数据采集系统软件技术的研究   摘要:随着互联网的快速普及,大量信息资源以电子形式呈现,亟需利用某种工具从海量信息资源中帮助人们快速查找所需信息。对DSP数据采集系统软件技术进行了研究,该技术能够实现对原始电子文档信息进行高效的结构化分析与处理,并从中采集用户感兴趣的某种特定事实信息。   关键词关键词:DSP技术;数据采集;软件技术   中图分类号:TP391文献标识码:A文章编号文章编号2014)005012702   作者简介作者简介:陈少杰(1983-),男,同济大学讲师,研究方向为软件工程。1DSP数据采集研究现状及背景   搜索特定信息时,通常面临两个问题:一是相关文件和涉及信息检索的选择,二是从文件和涉及的信息中采集具体信息。通常情况下,数据采集主要提取非结构化文本中的信息。研究数据采集方面的重要组织有MUC会议和TREC会议,数据采集任务的研究就是在第六届MUC(Message Under standing Conference)会议中提出的。比如给定某个公司的全体人事信息,数据采集的任务就是提取该公司管理人员的职位和姓名。   从非结构化、半结构化和结构化文本中提取信息是不同的,以万维网(WWW,World Wide DSP)作为信息传播媒介和DSP信息集成工作极为重要,日益增加的数据采集需求是因为要从DSP文档中提取信息。半结构化文档往往存储HTML或者XML文档,这些文档通常使用非语法元素,例如HTML/XML标签使用非语法语言传递信息,这使得大多数语法文本无法直接使用而只能采用调用一个非语法的方式。   目前,已经开发了多种查询语言支持从DSP进行数据采集,例如查询语言,但它们使用起来既耗时又费力。因此,设计一个可以在注释的例子中进行数据采集的自动系统尤为必要。目前,有学者在讨论包装器归纳问题,并且提出一些机器学习语言,如规则学习算法和多策略方法,这些方法都是将文档作为一个字符串。然而,半结构化文档如XML和HTML通常具有树形结构。因此,开发半结构化文档可以很自然地用到树自动机进行数据采集,树自动机是处理树结构最自然最有效的方法。使用树自动机的另一个优势在于可以依靠其文档结构的背景。一个半结构化文档,在目标字段更加接近树形结构文档时,在固定的距离内它可以代表文件中任意位置的字符串变量。但如果使用字符串的方法无法获得满意的实验结果,将会使学习任务变得非常艰巨。   为了解决这个问题,有研究者提出了两种ktestable归纳算法,称为gtestable算法和gltestable算法。在gtestable算法中,归纳的参数化取决于l,它所归纳的状态在最低的状态1时,标签被替换为通配符。实验结果表明,这些归纳算法能够提高包装器的性能。   2DSP数据采集系统软件技术概述   DSP数据采集是针对大量存在于DSP文档中的信息进行自动化处理,并将包含的一致信息提取出来,再进行结构化处理,将其变换成可以直接存入关系数据库中的数据,或可以直接存入知识库中的知识。   DSP数据采集的目标是从互联网上提取用户所需的信息。通常,DSP数据采集都是按照信息检索模式来处理,被采集页面通常都具备一定的相关性。首先通过爬虫程序获取特定网站内一定数量的超链接,再采用一些方法对得到的超链接进行筛选过滤,最基本的办法有URL结构比较法、简单树匹配法等,过滤后得到的页面集合去除了与用户需求无关的页面。该过程实际上是预处理过程,目的是简化后续采集过程中所用到的数据集,提高采集算法的效率。   DSP数据采集输入的是DSP文档,而输出则是以这种DSP固定文档格式中的某些信息片段,从不同的DSP文档采集多个信息片段固定集成。DSP文档大多数由HTML标记语言或XML标记语言组成,具有一定的结构性特征,这使得DSP数据采集相比于传统的基于自由文本(Free Text)、基于字符串的数据采集有了更进一步的扩展,当前大部分研究都是基于半结构化页面进行的。   3DSP数据采集系统软件技术分类   根据数据采集技术使用规则,可大致将DSP数据采集技术分为以下几类:   (1)自然语言处理方法。自然语言处理手段是以句法分析、语义标注、对象识别和采集规则等多个步骤层层处理以获取信息数据的过程,多被应用于自由文本中。具体而言,首先将文本对象分割为多个语句,并对每一个语句进行相应的标注,然后再将已分析好语句的语法构成和预先设定的语言模式加以匹配,从而获取语句的内容。实际上就是通过分割语句并利用各个语句的语法结构和语句之间的联系构建最基本的语法、语义采集规则而实现信息数据的采集过程。其中的采集规则可由个人进行编制,亦可由人为标注的语料库中自动获取。此种基于自然语言处理的手段较适用于源文档含大量信息文本

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档