基于C#多线程的Web实体抽取设计与实现.docVIP

  • 2
  • 0
  • 约4.02千字
  • 约 7页
  • 2019-05-27 发布于北京
  • 举报

基于C#多线程的Web实体抽取设计与实现.doc

PAGE PAGE 1 基于C#多线程的Web实体抽取设计与实现   摘要:介绍了C#网络编程及C#多线程编程的相关类库,以及网络编程的相关类库,并通过一个大型评论网站的数据抽取为背景,分析了相关的技术难点,分为抽取、处理、存储三个模块,构造了解决方案并将其实现。实验证明,该框架非常有效。   关键词:C#;网络编程;多线程编程;数据抽取   中图分类号:TP319文献标识码:A文章编号:1672-7800(2013)001-008402   0引言   随着互联网的发展,Web上数据的价值越来越得到研究人员的重视。因而获取Web上的信息成为深入研究的一个重要基础手段。很多的大型网站会提供API供研究人员抽取其数据。然而,仍然有相当多的网站并没有提供API。对这样的网站进行研究,就必须依靠编程,用程序抽取,最常见的就是网络爬虫。本文利用比较便利的C#网络编程,结合多线程、正则表达式、ADO等技术,实现一个大型网站的评论实体抽取到本地的应用。文中计划抽取的网站R是美国一个著名的网购评论网站,平均每天新增评论约1500条,到目前为止大概有20个类别约56000家网店约141万条评论,因此数据量非常大。笔者综合了Web抽取的关键技术,设计了解决方案,得到了满意的抽取结果。   1C#网络编程   C#中用于网络编程的类主要在System.Net和System.Net.Socket

文档评论(0)

1亿VIP精品文档

相关文档