基于语义的网上股评信息的提取研究-计算机科学与技术专业论文.docxVIP

下载本文档

2
0
约4.67万字
约 57页
2019-03-23 发布于上海
举报
版权申诉

基于语义的网上股评信息的提取研究-计算机科学与技术专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

摘要每天众多的财经网站会发布股票信息，这些信息数据量巨大、存在大量冗摘要每天众多的财经网站会发布股票信息，这些信息数据量巨大、存在大量冗余和容易混淆的数据，一般的用户需要花费很多时间才能获得自己想要的股评信息。本文从国内互联网股评及网上信息抽取技术的分析入手，对网上股评信息的提取进行研究，具体工作如下： (1)采用网络蜘蛛的信息抽取技术实现了对网页上的信息提取。在网页中先定位到用户所需信息的链接的URL，并把这些URL放入等待抓取的队列中；然后依次下载每个URL对应的网页，对其HTML文档进行结构化分析，从中查找股票信息。 (2)建立股评特征信息的词库。首先，根据对财经网站上的大量股评信息进行特征分析，找出既频繁出现、又能表示股票趋势的特征词汇。其次，由于所研究的股评信息具有前半旬常为描述股票特征、后半句给出操作建议的结构，所以，对股评信息的前半句的分析得到描述股评的多特征词汇，有时表示为一个特征，有时需要用结合两个特征词描述，综合分析后可将这些特征词汇后建立特征词库、结合词库；对股评信息的后半句分析得到的建议词汇可组成建议词库。最后，对特征词库、结合词库、建议词库三个词库中的特征词汇进行总结。 (3)利用所建立的特征词库对股评信息进行解析。首先从特征词库中依次取出特征词，与股评信息进行匹配，解析出第一特征词和第二特征词；如果特征词库中没有可以匹配的词汇，则从结合词库中依次取词匹配，根据解析出的第一特征词，然后匹配出第二特征词。在解析股评信息的前半句后继续解析后半句中的建议词，过程同特征词库匹配类似。解析得到特征信息后就通过己定义好的数据库接口将股票代码、名称、特征信息、原始股评等信息存储到相应的数据库表中。 (4)设计与实现网上股评信息提取模块。首先介绍了模块的总体设计，给出了系统的层次结构图；其次结合网络抓取模块结构图和流程图介绍了网络蜘蛛的信息提取的过程，以及网络蜘蛛主控模块对抓取进程的控制；最后对股评特征信息库的结构进行了设计，并且给出了从股评信息中解析特征词汇的主要伪代码描述。关键字：网上股评，语义，网络蜘蛛，信息提取，股评特征 AbstractMany Abstract Many financial web sites issue stock information every day．There are a hllge amotmt of data and a large number of redundant and confused data 011 the web sites． The average IISelS need to spend much time to get expected information about stockcomment．Tllis paper analysed domestic stockeomment on the Internet and the the technology of information extraction,and make the study of extracting stockcomment from Internet．The studied work WaS as follows： (1)Achieve extracting information from the web page based Oil web spider． Firstly it finds the URL which contains expected information On the web pages，and puts the URL into a queue waiting to extract information．Then it downloads the web page which corresponds to URL in turn,and analyses the structure of the HTML document,finding the stock information． (2)Establish the library of the stock feature．Firstly,based Oil the analysis of a large number of stoekcommcnts，the feature words often emerge frequently and can express the characteristic of the stock trend．Secondly,because the first phrase of stockcomment d