采用最小DFS的DeepWeb结构化数据抽取.PDFVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
<<知识组织    采用最小DFS的DeepWeb结构化数据抽取 1,2 1 1 刘荣辉  郑建国 王 翔 1 2 东华大学管理学院 上海200051  河南城建学院计算机科学与工程系 平顶山467044 〔摘要〕通过分析动态数据在其Web页面中的展示特点,提出一个新的自动化、结构化数据抽取方法。首先基于 DOM利用算法实现快速定位数据区,从而避免处理大量噪音数据;其次引入最小DFS编码来表示DOM子树,通 过聚类对记录数据区进行区分;最后对少量样本页面训练学习生成抽取规则用于数据抽取。利用原型系统针对 实际网站中的页面进行数据抽取,实验结果显示其拥有较高的准确性和效率。 〔关键词〕DeepWeb 结构化数据 最小DFS 编辑距离 信息抽取 〔分类号〕TP391 DeepWebStructuredDataExtractionBasedonMinimalDFS 1,2 1 1 LiuRonghui ZhengJianguo WangXiang 1SchoolofManagement,DonghuaUniversity,Shanghai200051 2DepartmentofComputerScienceandEngineering,HenanUniversityofUrbanConstruction,Pingdingshan467044 〔Abstract〕AnewautomaticalmethodtoextracthighqualitydatafromDeepWebisproposedinthispaperbyanalyzinglayoutfeatures ofWebpages.Firstlydataregionisquicklocatedwithoutdealwithalotofnoisydata.Secondlyclusterisusedtodistinguishdatare cordregionbasedonsubtreesofDOMrepresentedbyminimalDFScoding.Thirdly,extractruleisgotbylearningandtrainingfew samplepages.Theresultofexperimentbytheprototypetorealwebsiteswebpagesshowsthatthemethodiseffectiveandefficient. 〔Keywords〕DeepWeb structureddata minimalDFS levenshteindistance informationextraction 决重复语义标注问题和嵌套属性问题。文献[5]把一 1 引 言 个网页看作多个内容块的集合,并识别出这些内容块; 其对搜索引擎的搜索结果处理得很好,但是需要一个 [1] 没有结果的页面和一些特殊的启发式规则。文献[6]   DeepWeb(深网)蕴含海量的高质量数据 ,准确 地提取出其中包含的数据,已经成为一个非常重要的 基于MDRII实现自动化抽取工具DEPTA,但采用树编 研究方向。DeepWeb中真正有用的数据是通过其数 辑距离对子树进行比较,处理大页面样本效率不高,同 据源网站上提供的查询接口获取,填充固定模板生成 时对嵌套属性考虑过少。上述数据抽取工具或多或少 结果页面来

您可能关注的文档

文档评论(0)

suijiazhuang1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档