logo

您所在位置网站首页 > 海量文档  > 理工科 > 基础科学

一种面向Deep Web数据源的重复记录识别模型.pdf 7页

本文档一共被下载: ,您可全文免费在线阅读后下载本文档。

  • 支付并下载
  • 收藏该文档
  • 百度一下本文档
  • 修改文档简介
全屏预览

下载提示

1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
2.该文档所得收入(下载+内容+预览三)归上传者、原创者。
3.登录后可充值,立即自动返金币,充值渠道很便利
特别说明: 下载前务必先预览,自己验证一下是不是你要下载的文档。
  • 上传作者 江南春(上传创作收益人)
  • 发布时间:2019-08-13
  • 需要金币50(10金币=人民币1元)
  • 浏览人气
  • 下载次数
  • 收藏次数
  • 文件大小:2.13 MB
下载过该文档的会员
你可能关注的文档:
第 期 电 子 学 报 2 Vol.38 No.2 年 月 2010 2 ACTAELECTRONICASINICA Feb. 2010 一种面向DeepWeb数据源的重复记录识别模型 申德荣,刘丽楠,寇 月,聂铁铮,于 戈 (东北大学信息科学与工程学院,辽宁沈阳 110004) 摘 要: 重复记录是指描述现实世界中同一实体的不同的记录信息 由于从同一个领域的不同 数据 . DeepWeb 源中抽取的记录信息通常存在许多重复记录,本文针对半结构化的重复记录的识别进行研究 在已知全局模式和全局 . 模式与各 数据源查询接口映射关系的基础上,提出了一种重复记录识别模型 基于从 中抽取出的 DeepWeb . DeepWeb 半结构化的数据,采用查询探测方法确定所抽取数据所匹配的属性,通过分析抽取的实例数据确定属性重要度,结合 多种相似度估算器和多种算法计算记录间的相似度,进而识别重复记录 实验表明,该重复记录识别模型在 . DeepWeb 环境下是可行且有效的. 关键词: 重复记录;深层 ;数据清洗 web 中图分类号: 文献标识码: 文章编号: ( ) TP391 A 03722112201002027507 ADuplicateRecordsIdentificationModelforDeepWebDataSources , , , , SHENDerongLIULinanKOUYueNIETiezhengYUGe ( , , , , ) SchoolofInformationandScienceandEngineeringNortheasternUniversityShenyangLiaoning110004China : Abstract Duplicaterecordsaremultipledifferentrecordsdescribingthesameentityintherealworld.Sincesomeofthe , recordsextractedfromdifferentDeepWebsourcesinthesamedomainusuallyareduplicatesthepaperfocusesonduplicaterecords identificationandaduplicaterecordsidentificationmodelisproposedonthebasisofknownglobalschemaandtherelationship

发表评论

请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
用户名: 验证码: 点击我更换图片

“原创力文档”前称为“文档投稿赚钱网”,本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有【成交的100%(原创)】。原创力文档是网络服务平台方,若您的权利被侵害,侵权客服QQ:3005833200 电话:19940600175 欢迎举报,上传者QQ群:784321556