- 1、本文档共37页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
北大计算机毕业论文
本科学位论文
题目: 一种动态文本关联模型的设计与实现
The Design and Implement of Dynamic Text-
Association Model
姓 名:
学 号:
院 系: 信息科学技术学院
专 业: 计算机科学与技术
指导教师:
北京大学本科毕业论文导师评阅表
学 号 学生姓名 论文成绩 学院(系) 信息科学技术学院 专 业 计算机科学与技术 导师姓名 导师单位 职 称 论文题目
一种动态文本关联模型的设计与实现
The Design and Implement of Dynamic Text-association Model 导师评语
(包含对论文的性质、难度、分量、综合训练等是否符合培养目标的目的等评价)
导师签名:
年 月 日
版权声明
任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制,抄录,拍照或以任何方式传播。否则,引起有碍作者著作权益之问题,将可能承担法律责任。
摘 要
随着互联网的快速发展,人们越来越多地面临着信息爆炸的问题。过多冗余的信息让人们很难在海量的数据库中挖掘出真正有意义的信息。此外,由于金融市场具有时效性,过期的信息非但没有价值,反而会影响正常的数据挖掘操作。因此,为了保证和提高金融数据挖掘的质量,有必要对海量的文本进行动态的关联操作。
本文在深入学习了关于文本操作的背景知识和应用工具后,分3部分完成动态文本关联的操作。首先,利用网络爬虫得到文本库,然后就文本库中文章进行分词处理,并在这一步骤中完成对文本的时间标记;其后,为更新的文本库建立索引库,利用倒排索引将文章按关键词列表索引起来;然后,利用改进的Tf*Idf算法Tf*ENTROPY算法求出单篇文章的关键词,再根据关键词集合之间的交集判定文章与文章之间的关联。以上步骤都建立在一个时间轴上进行,让不同时刻的文本单独隔离开。
经过实验显示,这种动态文本关联模型保证了信息的时效性,会将新鲜的信息反馈给用户;并且保证了结果的正确性,得到了良好的测试结果。
关键词: 动态 文本关联 倒排索引 Tf*ENTROPY
Abstract
With the rapid development of Internet, people become to face more and more information blooming problem. Because of redundant information, it is quite difficult to mine the valuable information in huge database. In addition, since financial market is influenced a lot by time, overdue information is not only useless, but also will badly affect the mining operation. So in order to enhance the quality of date-mining, it is necessary to conduct certain research on the topic of dynamic text-association.
In this passage, I present my design and realization of dynamic text-association model after learning relevant background knowledge and application tools. I divided the whole operation into 3 steps. First of all, I used web-reptile to get the information from internet, then divided the whole passages into individual words, and signed the passages with time ID;Secondly, I used I
文档评论(0)