- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
11111
11111 1 1 11 1 1 1 11 II Illl U
Y1 927076
谨以此论文献给中国海洋大学老师们
. 赵玉勇
^
飞
,
f1l‘,
.
·..,
..
..
基于Web搜索和网页结构分析的
基于Web搜索和网页结构分析的 IT相关主题新闻抓取研究
答辩委员会成员签字: # 学位论文完成日期:
指导教师签字:
飞夕
、
基土!盐攮塞塑幽亟结圭刍|公扳的l!扭羞圭巫堑阊拯塾班荭独
基土!盐攮塞塑幽亟结圭刍|公扳的l!扭羞圭巫堑阊拯塾班荭
独 创 声 明
本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果, 也不包含未获得
.(洼;垫遗直墓他盂墨挂剔虚明的:奎拦亘窒2或其他教育机构的学位或证书使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。
学位论文作者签名:妫签字日期:切口年7f月刁日
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,有权保留并 向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人 授权学校可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用 影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后 适用本授权书)
学位论文作者签名:拯玉彦 导师赢‘7
飞 !I!Iii=I II:矽p年“月2]日 II!ii=II II:力/o年,『月27日
咎~
学位论文作者毕业后去向:
工作单位: 电话:
通讯地址: 邮编
1i
1ik
基于Web搜索和网页结构分析的I
基于Web搜索和网页结构分析的I T相关主题新闻抓取研究 摘 要
新闻是和人们日常工作娱乐生活相关性很强的信息,对于有影响的新闻事 件,深度与跨度较大的主题新闻则更具知识性趣味性,所谓主题新闻,以其及时 性突出新闻的“新,以其时间跨度大突出“主题和专题,讲求一个“深。近 几年来,互联网成为新闻信息发布的最好平台和最大来源,各种新闻以各种形式 在网上快速传播。另一方面互联网上信息的爆炸式增长,使得手工方式获取更多 更全的新闻内容越来越难,而作为信息获取方案之一的搜索引擎技术取得了长足 的进步,以Google为代表的搜索引擎将触角伸进互联网上信息的角角落落。如
何深入全面的挖掘新闻信息,对于许多新闻相关工作意义重大,通过搜索引擎挖 掘深入全面的新闻信息,是本文的研究重点,即通过进一步挖掘和某一主题相关 的新闻内容,形成主题新闻。
IT新闻抓取的过程,本质上是Web数据挖掘的过程。挖掘中首先对2009年 热点的新闻样本进行归类和分析,在样本分类的基础上,找出各样本的特点,提 出行业角色模型(Trade.role Model)。此模型的提出是在与基于用户兴趣的搜索 模型对照分析的基础上完成的,最终形成一个行业角色评分公式以对样本进行评 价。以此模型为基础,在本文中主题新闻抓取通过两步实现。第一步,变换关键 词搜索并对搜索引擎搜索结果URL提取。此步是本文研究工作的基础,提取的 质量直接决定后续工作的成败。通过对搜索引擎中Google的搜索特点的研究, 在几种方案中选择利用本机程序实现对其搜索结果的利用,通过基于行业角色的 模型将URL链接进行比较,通过分值对这些链接进行评价与筛选,此步将大部 分垃圾或无用的链接去除,保留了与新闻主题相关的链接,并选择了分值最高的 一些为后面使用。第二步,URL对应的新闻正文提取。此步是本文的最终研究
成果,通过对前一步中筛选后搜索到的URL链接对应的页面进行分析,提取网
l 页对应的文本文件,通过行业角色模型进行文本挖掘,利用TRM模型以段落为
丛
基础评价得分,最后对各段落动态平衡,利用上面的分值和新闻网页的特点比较
取舍,提取其中相应新闻正文内容。从新闻样本抓取的最终结果看,平均查准率 达到90.2%,平均查全率达到72.8%。最终抓取的新闻正文,也最后形成主题新 闻的文字正文。
由于手工提炼互联网上的新闻要耗费大量的人力,通过利用搜索引擎的结果
由于手工提炼互联网上的新闻要耗费大量的人力,通过利用搜索引擎的结果 和程序的方式提炼出相关的新闻内容,会节约大量人力资源,并使新闻事件迅速 全方位呈现在网络受众面前,这也是本文研究的价值所在。
关键词:主题新闻;搜索引擎:行业角色模型;文本挖掘
’
l
k
THE
THE STUD
您可能关注的文档
- 基于PLC的锅炉供热控制系统的设计-控制理论与控制工程专业论文.docx
- 基于PLC的锅炉燃烧控制系统设计-控制工程专业论文.docx
- 基于WAP的彩铃业务平台的研究与实现-计算机软件与理论专业论文.docx
- 基于Web Services的工作流系统关键技术的研究与实现-计算机应用专业论文.docx
- 基于Web Services的企业应用集成技术研究与应用-计算机应用技术专业论文.docx
- 基于web部件的个性化门户网站构建技术研究-计算机软件与理论专业论文.docx
- 基于web的民航飞行学生综合信息管理系统设计-软件工程专业论文.docx
- 基于WEB的屏山县教育管理系统设计与实现-软件工程专业论文.docx
- 基于web的嵌入式远程控制系统设计-电路与系统专业论文.docx
- 基于Web的网格监控系统研究-计算机系统结构专业论文.docx
- 基于web网上英语考试与试卷分析系统的研究与实现-软件工程专业论文.docx
- 基于WEB虚拟现实实验室的研究与实现-电子与通信工程专业论文.docx
- 基于WEB页面的关键词与关键概念提取技术-计算机软件与理论专业论文.docx
- 基于WEB页面的即时聊天系统-软件工程专业论文.docx
- 基于Web页面结构的网页数据提取研究-计算机软件与理论专业论文.docx
- 基于Web重建的VR协同设计技术研究-计算机应用技术专业论文.docx
- 基于Web资源的企业知识服务研究-管理科学与工程专业论文.docx
- 基于Weibull分布的小型气缸可靠性分析-电力电子与电力传动专业论文.docx
- 基于Weka的可视化医疗数据挖掘平台的设计与实现-信息与通信工程专业论文.docx
- 基于Weka平台的关联分析算法研究-电子与通信工程专业论文.docx
文档评论(0)