- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
互联网财经图文信息抓取技术研究
互联网财经图文信息抓取技术研究
中国传媒大学 荆 华 方小林曹三省
摘 要:本文介绍了互联网财经信息采集工具软件中用到的图文信息抓取的一种实现方法。该方法利用
URL语法在命令行方式下工作的网络信息采集工具叫u订来实现对页面内容的获取。为达到灵
活和精确提取数据的目的,正则表达式被用作处理结构化数据的关键技术。以新浪网的财经板块
为实际案例,阐述了数据抓取过程及结果,并提供了简化的PHP示例程序,结果表明,该方法能
有效方便地应用于互联网财经图文信息的采集。
关键词:搜索,图文信息,财经,PHP
1前言
随着新一代信息技术的发展、三网融合的推进和“十二五”规划的制定,中国广电行业目前已进入快
速发展期。各地运营商正面临着整体平移、网络改造、互动业务三项主要任务,其中整体平移和网络改造
属于基础设施建设,而互动融合业务运营则是直接影响到行业发展前景和各运营商营业收入的关键所在。
通过三网融合,将衍生出更加丰富的增值业务类型,如图文电视、VolP、视频邮件和网络游戏等,拓展能
提供的业务范围。今后的电视就相当于一个电脑显示器,机项盒是主机,而遥控器就是简易键盘,随着把
更多服务内容置入机项盒,市民足不出户就可了解更多信息,而且电视操作比起电脑简便,更适合用户全
家使用。
本论文中设计的系统能够支持跨平台视频通信等新型业务,支持云交换基础设施和相关信息环境,且
对于各类数据增值业务具有开放性的兼容能力。本论文结合当前的三网融合智能终端平台的研制工作,将
财经全媒体信息业务设计、实现并部署于三网融合智能终端平台中,对于探索三网融合条件下的新型财经
信息服务方式和支撑技术途径而言,具有十分突出的意义和价值。
本文设计并实将大量来源于互联网的各大财经网站的财经图文信息抓取汇聚在一起,通过机顶盒浏
览,供用户在电视机屏幕上及时全面的查看财经图文信息,将传统意义上的看电视变为了“用”电视,及
时把握财经信息。
2互联网财经图文信息采集一般过程
互联网财经图文信息采集是指从互联网上有针对性、专业性和精准性的抓取信息,并按照一定规则和
本文工作受到以下项目资助:国家高新技术产业化项目“基于IPV6的P2PCDN高清数字媒体内容分发业务试商用”
(CNGI.09.03—15—1),北京市文化创意产业专项(BJWZl001—2)。
2012.4.2012中国数字广播电视与网络发展年会157
互联网财经图文信息抓取技术研究
4图文抓取技术
本文介绍的图文抓墩技术过程牛要包括两步:网页读取和网页代码信息解析。F而介绍所开发的金融
数据采集软什抓取数据所用到的儿项基本技术咀供参考;
(I)网页情息获取。
尽管目前网站丌发技术很多,无论服务器使用的哪种后端语占。到选用户浏览器端的数据均为HTML
厦LDAP。PHP下的cud扩展可以轻松的获取指定URLr的页面内容,馋至是以GET或POST方式提交
些对网络抓墩做过【;艮制的站点,在麸取页面内容Z前,可以通过设置模拟浏览器的头信息来突破限制,返
在蚓络抓取的过程中t分重要。
例如,下述为基于PHP的中文网页诖取函数。它返回指定html源文件文本。
Scuff=curl—init(),
curl CURLOPT sinaCOlllcn”):
setopt($curlURL.“http://finance
Mozilla/4 6
curl_setopt(Scud,CURLO咀USERAGENL
0(compatible;MSIE
5 1 SVI.NETCLRl 1 2.050727)”)
4322;NETCLR
curl
setopt
文档评论(0)