- 0
- 0
- 约1.38万字
- 约 4页
- 2018-12-13 发布于天津
- 举报
基于Web挖掘的商业信息抽取研究.PDF
第29卷.第 5期 情 报 杂 志 V01.29 No.5
2010年 5月 JOURNALOFINTELLIGENCE May 2010
基于 Web挖掘的商业信息抽取研究*
TheStudyofW ebBusinessInformationExtractionBasedOnRegularExpressions
廖开际 易 聪
(华南理工大学工商管理学院 广州 510640)
摘 要 web商业信息普遍存在互联网HTML文件 中,使用传统手工方法来收集这些信息存在很大的局限性。针
对web上存在的大量商业信息,基于web挖掘技术,提出了使用正则表达式来收集大规模web商业信息。实现方
式是首先获取网页源文件 ,接着使用设计好的正则表达式对源文件进行编译,从而抽取其中的web商业信息。实
验表明,这种方法抽取的准确率达到93%以上。
关键词 Web商业信息抽取 正则表达式 web挖掘
中图分类号 TP391.
原创力文档

文档评论(0)