- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
<<知识组织
采用最小DFS的DeepWeb结构化数据抽取
1,2 1 1
刘荣辉 郑建国 王 翔
1 2
东华大学管理学院 上海200051 河南城建学院计算机科学与工程系 平顶山467044
〔摘要〕通过分析动态数据在其Web页面中的展示特点,提出一个新的自动化、结构化数据抽取方法。首先基于
DOM利用算法实现快速定位数据区,从而避免处理大量噪音数据;其次引入最小DFS编码来表示DOM子树,通
过聚类对记录数据区进行区分;最后对少量样本页面训练学习生成抽取规则用于数据抽取。利用原型系统针对
实际网站中的页面进行数据抽取,实验结果显示其拥有较高的准确性和效率。
〔关键词〕DeepWeb 结构化数据 最小DFS 编辑距离 信息抽取
〔分类号〕TP391
DeepWebStructuredDataExtractionBasedonMinimalDFS
1,2 1 1
LiuRonghui ZhengJianguo WangXiang
1SchoolofManagement,DonghuaUniversity,Shanghai200051
2DepartmentofComputerScienceandEngineering,HenanUniversityofUrbanConstruction,Pingdingshan467044
〔Abstract〕AnewautomaticalmethodtoextracthighqualitydatafromDeepWebisproposedinthispaperbyanalyzinglayoutfeatures
ofWebpages.Firstlydataregionisquicklocatedwithoutdealwithalotofnoisydata.Secondlyclusterisusedtodistinguishdatare
cordregionbasedonsubtreesofDOMrepresentedbyminimalDFScoding.Thirdly,extractruleisgotbylearningandtrainingfew
samplepages.Theresultofexperimentbytheprototypetorealwebsiteswebpagesshowsthatthemethodiseffectiveandefficient.
〔Keywords〕DeepWeb structureddata minimalDFS levenshteindistance informationextraction
决重复语义标注问题和嵌套属性问题。文献[5]把一
1 引 言 个网页看作多个内容块的集合,并识别出这些内容块;
其对搜索引擎的搜索结果处理得很好,但是需要一个
[1] 没有结果的页面和一些特殊的启发式规则。文献[6]
DeepWeb(深网)蕴含海量的高质量数据 ,准确
地提取出其中包含的数据,已经成为一个非常重要的 基于MDRII实现自动化抽取工具DEPTA,但采用树编
研究方向。DeepWeb中真正有用的数据是通过其数 辑距离对子树进行比较,处理大页面样本效率不高,同
据源网站上提供的查询接口获取,填充固定模板生成 时对嵌套属性考虑过少。上述数据抽取工具或多或少
结果页面来
您可能关注的文档
- 进行无重复双因素方差分析.PPT
- 连接电缆插座-散线在线数据表-Sick.PDF
- 连云港港徐圩港区液体散货泊位区进港航道工程-连云港港口管理局.DOC
- 迪士尼小镇-上海迪士尼度假区.PDF
- 退火处理对葛根淀粉老化特性和质构特性的影响-安徽农业大学学报.PDF
- 逆变器的典型控制方法与电气仿真分析-上海电力学院学报.PDF
- 适用版-南京中医药大学图书馆.DOC
- 逆变器供电的感应电动机故障仿真研究-厦门电机工程学会.DOC
- 选手自带配件说明-学校.DOC
- 选择SolidEdge同步建模技术的十大理由pdf-上海联宏创能信息科技.PDF
- 专题04 天气与气候(期末真题汇编,广东专用)(解析版).docx
- 专题04 中国的经济发展(百题精选)(期末真题汇编)(原卷版).docx
- 专题05 建设美丽中国(专项训练)(原卷版).docx
- 专题05 建设美丽中国(专项训练)(解析版).docx
- 专题05 居民与文化 发展与合作(百题精选)(期末真题汇编)(解析版).docx
- 2024年下半年教师资格考试中学《教育知识与能力》真题(含答案和解析).docx
- 专题05 居民与文化 发展与合作(百题精选)(期末真题汇编)(原卷版).docx
- 专题05 居民与文化 发展与合作(期末真题汇编,广东专用)(解析版).docx
- 专题05 居民与文化 发展与合作(期末真题汇编,广东专用)(原卷版).docx
- 统编版七年级语文上册课件《雨的四季》.pptx
最近下载
- IP地址和域名(计算机网络知识十大经典课件).ppt VIP
- 2025年戏剧学专业考研复习试题及答案.docx VIP
- 上门收款服务合同.doc VIP
- 泌尿外科后腹腔镜手术并发症-预防策略与技巧.ppt VIP
- 2025年最新人教版七年级英语(上册)期中试卷及答案(各版本).docx VIP
- 2025年四川省考选调公务员录用考试《行测》真题带答案详解ab卷.docx
- 机械设计基础课程设计指导书.doc VIP
- 2025年烟标印刷行业市场规模及未来五到十年发展趋势报告.docx
- 2025年驾驶证资格考试科目一必刷题库及答案(共450题) .pdf VIP
- 尾矿回收利用项目立项建设资金申请报告.doc VIP
原创力文档


文档评论(0)