- 2
- 0
- 约4.02千字
- 约 7页
- 2019-05-27 发布于北京
- 举报
PAGE
PAGE 1
基于C#多线程的Web实体抽取设计与实现
摘要:介绍了C#网络编程及C#多线程编程的相关类库,以及网络编程的相关类库,并通过一个大型评论网站的数据抽取为背景,分析了相关的技术难点,分为抽取、处理、存储三个模块,构造了解决方案并将其实现。实验证明,该框架非常有效。
关键词:C#;网络编程;多线程编程;数据抽取
中图分类号:TP319文献标识码:A文章编号:1672-7800(2013)001-008402
0引言
随着互联网的发展,Web上数据的价值越来越得到研究人员的重视。因而获取Web上的信息成为深入研究的一个重要基础手段。很多的大型网站会提供API供研究人员抽取其数据。然而,仍然有相当多的网站并没有提供API。对这样的网站进行研究,就必须依靠编程,用程序抽取,最常见的就是网络爬虫。本文利用比较便利的C#网络编程,结合多线程、正则表达式、ADO等技术,实现一个大型网站的评论实体抽取到本地的应用。文中计划抽取的网站R是美国一个著名的网购评论网站,平均每天新增评论约1500条,到目前为止大概有20个类别约56000家网店约141万条评论,因此数据量非常大。笔者综合了Web抽取的关键技术,设计了解决方案,得到了满意的抽取结果。
1C#网络编程
C#中用于网络编程的类主要在System.Net和System.Net.Socket
您可能关注的文档
最近下载
- 城镇供水管网工程监理实施细则.docx VIP
- 2026年入团考试必备150题题库答案解析(完整版).docx
- 《零碳农业园区创建与评价技术规范》(TJAASS 164-2025).pdf VIP
- 磁悬浮港口起重机.docx VIP
- 中国共产党陕西历史知到课后答案智慧树章节测试答案2025年春西北工业大学.docx VIP
- 1145t超临界锅炉(350MW机组)---锅炉本体说明书.pdf VIP
- 第三方监督巡查 投标方案(技术方案).doc VIP
- 分化型甲状腺癌术后131I治疗临床路径专家共识2017版.PDF VIP
- 2025年测绘师某典型桥梁裂缝观测全过程案例分析专题试卷及解析.pdf VIP
- 矿山建设项目竣工验收全流程.pdf VIP
原创力文档

文档评论(0)