自动的WEB信息提取和集成论文.pdfVIP

  • 1
  • 0
  • 约1.53万字
  • 约 3页
  • 2017-07-13 发布于广东
  • 举报
自动的WEB信息提取和集成¨ AutomaticWeb InformationExtractionand Integration 刘世杰1唐世渭1杨冬青1 王腾蛟1姚小波2 (北京大学视觉与听觉信息处理国家重点实验室 北京100871)t (北京大学计算机科学技术系 北京100871)1 (广州新太科技股份有限公司研究院 广州510665)z AbstractWebinformation is withInternet and expandingquicklyalong popularizationapplica— a tion.But of WebinformationbasesontextHtml majority or documents.Thesedocumentsare unstructuredorsemi—structrued.Such informationcanbesearchedwith keywordsusually,and can’tbe with statements.Thislimitsthe tOdealandmineWeb queriedSQL way information. This anew tO informationbased and paperpresentsapproach onmodecontentinfor— extracting mation itinthe COMMIX in— extraction,what’Smore,we characteristics implemented system.Its clude the and variousinformationfromdiffer— matching templateautomatically target integrating entWebsites. Mode Keywordsinformationextraction,Contentinformationextraction,Semi—structureddata, database.Thesaurus XML,Template 并没有对Internet信息本身含义进行描述。这增加 1.引言 了信息提取的复杂程度,完全自动地提取有用信息 Internet高速发展,网络上的信息量爆炸式地 很困难。目前,比较主流的Wrapper都是半自动化 急速膨胀。随着数据量的激增,Web规模的快速增 的,主要有:基于Web网页内容模式

文档评论(0)

1亿VIP精品文档

相关文档