- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘要每天众多的财经网站会发布股票信息,这些信息数据量巨大、存在大量冗
摘要
每天众多的财经网站会发布股票信息,这些信息数据量巨大、存在大量冗 余和容易混淆的数据,一般的用户需要花费很多时间才能获得自己想要的股评 信息。本文从国内互联网股评及网上信息抽取技术的分析入手,对网上股评信 息的提取进行研究,具体工作如下:
(1)采用网络蜘蛛的信息抽取技术实现了对网页上的信息提取。在网页中先 定位到用户所需信息的链接的URL,并把这些URL放入等待抓取的队列中;然 后依次下载每个URL对应的网页,对其HTML文档进行结构化分析,从中查找 股票信息。
(2)建立股评特征信息的词库。首先,根据对财经网站上的大量股评信息进 行特征分析,找出既频繁出现、又能表示股票趋势的特征词汇。其次,由于所 研究的股评信息具有前半旬常为描述股票特征、后半句给出操作建议的结构, 所以,对股评信息的前半句的分析得到描述股评的多特征词汇,有时表示为一 个特征,有时需要用结合两个特征词描述,综合分析后可将这些特征词汇后建 立特征词库、结合词库;对股评信息的后半句分析得到的建议词汇可组成建议 词库。最后,对特征词库、结合词库、建议词库三个词库中的特征词汇进行总 结。
(3)利用所建立的特征词库对股评信息进行解析。首先从特征词库中依次取 出特征词,与股评信息进行匹配,解析出第一特征词和第二特征词;如果特征 词库中没有可以匹配的词汇,则从结合词库中依次取词匹配,根据解析出的第 一特征词,然后匹配出第二特征词。在解析股评信息的前半句后继续解析后半 句中的建议词,过程同特征词库匹配类似。解析得到特征信息后就通过己定义 好的数据库接口将股票代码、名称、特征信息、原始股评等信息存储到相应的 数据库表中。
(4)设计与实现网上股评信息提取模块。首先介绍了模块的总体设计,给出 了系统的层次结构图;其次结合网络抓取模块结构图和流程图介绍了网络蜘蛛 的信息提取的过程,以及网络蜘蛛主控模块对抓取进程的控制;最后对股评特 征信息库的结构进行了设计,并且给出了从股评信息中解析特征词汇的主要伪 代码描述。
关键字:网上股评,语义,网络蜘蛛,信息提取,股评特征
AbstractMany
Abstract
Many financial web sites issue stock information every day.There are a hllge amotmt of data and a large number of redundant and confused data 011 the web sites. The average IISelS need to spend much time to get expected information about stockcomment.Tllis paper analysed domestic stockeomment on the Internet and the the technology of information extraction,and make the study of extracting stockcomment from Internet.The studied work WaS as follows:
(1)Achieve extracting information from the web page based Oil web spider. Firstly it finds the URL which contains expected information On the web pages,and puts the URL into a queue waiting to extract information.Then it downloads the web page which corresponds to URL in turn,and analyses the structure of the HTML document,finding the stock information.
(2)Establish the library of the stock feature.Firstly,based Oil the analysis of a large number of stoekcommcnts,the feature words often emerge frequently and can express the characteristic of the stock trend.Secondly,because the first phrase of stockcomment d
您可能关注的文档
- 基于双目立体视觉的目标跟踪方法研究-信息与通信工程专业论文.docx
- 基于细微特征的通信信号分类识别研究-信号与信息处理专业论文.docx
- 基于虚拟试验台架的驱动桥壳疲劳寿命分析研究-车辆工程专业论文.docx
- 基于双迭代奇异值分解的子空间辨识方法与最小二乘阶跃响应辨识方法研究-控制理论与控制工程专业论文.docx
- 基于眼模型的眼底荧光相机的研究-光学工程专业论文.docx
- 基于线程模块的施工过程远程监控系统研究与应用-机械电子工程专业论文.docx
- 基于诈骗与入侵容忍技术的动态取证系统研究-数学;运筹学与控制论专业论文.docx
- 基于现金流量表的实物期权估价方法研究及实证分析-管理科学与工程专业论文.docx
- 基于知识的网络化UPS故障诊断专家系统-安全技术及工程专业论文.docx
- 基于战略联盟的天津市电动车产业集群发展模式研究-区域经济学专业论文.docx
最近下载
- 华为手机营销方法论IPMS和GTM高级培训课件(第一部分)glz.pptx VIP
- (高清版)DB4401∕T 166-2022 《1:500 1:1000 1:2000地形图图式》.docx VIP
- HXD3D型机车检修作业指导书.doc VIP
- 华为GTM与IPMS流程解析glz.pptx VIP
- 家庭治疗历史与流派(2020年10月整理).pdf VIP
- 3.《特殊作业监护人履责管理要求(征求意见稿)》.pdf
- 癸酉本石头记.doc VIP
- 2025至2030中国己内酯行业项目调研及市场前景预测评估报告.docx
- 模具材料价格信息.PDF VIP
- 西门子HMI设备Smart 700 IE、Smart 1000 IE操作说明.pdf VIP
原创力文档


文档评论(0)