- 1
- 0
- 约1.53万字
- 约 3页
- 2017-07-13 发布于广东
- 举报
自动的WEB信息提取和集成¨
AutomaticWeb
InformationExtractionand
Integration
刘世杰1唐世渭1杨冬青1 王腾蛟1姚小波2
(北京大学视觉与听觉信息处理国家重点实验室 北京100871)t
(北京大学计算机科学技术系 北京100871)1
(广州新太科技股份有限公司研究院 广州510665)z
AbstractWebinformation
is withInternet and
expandingquicklyalong popularizationapplica—
a
tion.But of
WebinformationbasesontextHtml
majority or documents.Thesedocumentsare
unstructuredorsemi—structrued.Such
informationcanbesearchedwith
keywordsusually,and
can’tbe with statements.Thislimitsthe tOdealandmineWeb
queriedSQL way information.
This anew tO informationbased and
paperpresentsapproach onmodecontentinfor—
extracting
mation itinthe
COMMIX in—
extraction,what’Smore,we characteristics
implemented system.Its
clude the and variousinformationfromdiffer—
matching templateautomatically
target integrating
entWebsites.
Mode
Keywordsinformationextraction,Contentinformationextraction,Semi—structureddata,
database.Thesaurus
XML,Template
并没有对Internet信息本身含义进行描述。这增加
1.引言
了信息提取的复杂程度,完全自动地提取有用信息
Internet高速发展,网络上的信息量爆炸式地
很困难。目前,比较主流的Wrapper都是半自动化
急速膨胀。随着数据量的激增,Web规模的快速增 的,主要有:基于Web网页内容模式
您可能关注的文档
最近下载
- 会计报表附注(企业会计准则).pdf VIP
- 2025年深圳市考公务员考试《行测》真题及答案.docx
- 2025年山东省公务员考试《行测》真题及答案.pdf
- 股权转让合同协议简单范本.doc VIP
- 2025年山东省公务员考试《行测》真题及答案.docx
- 2025年江西省公务员考试《行测》真题及答案.pdf
- 数字普惠金融对中小企业融资约束的影响研究.docx VIP
- 【新教材】人教版(2024)七年级上册数学第五章 一元一次方程 综合素质评价试卷(Word版,含答案).docx VIP
- 2025年江西省公务员考试《行测》真题及答案.docx
- 2025年河北省公务员考试《行测》真题及答案.pdf
原创力文档

文档评论(0)