主题网站的自动发现与判定方法研究开题报告.docVIP

下载本文档

4
0
约1.37万字
约 15页
2016-04-16 发布于安徽
举报
版权申诉

主题网站的自动发现与判定方法研究开题报告.doc

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

主题网站的自动发现与判定方法研究开题报告.doc

表二南京航空航天大学攻读硕士学位研究生课题论证报告姓名郭倩学号 SQ09099010011 专业管理科学与工程研究方向管理信息系统指导教师马静教授 2010年11月2日表二课题名称：主题网站的自动发现与判定方法研究选题依据（包括课题的来源、研究目的、必要性和重要性、意义以及国内外研究的技术现状分析）课题来源本课题来自于导师国防技术基础项目。问题提出随着时代发展与科技进步，在众多公开情报来源(如报刊、图书、声像资料等)中，互联网已经成了进行公开情报收集的一个重要渠道。但是，互联网作为海量信息源，具有3个特点：(1)网上可利用的同类信息较多且结构形式多样；(2)信息和服务具有动态性；(3)信息存在模糊性，甚至是带有错误的。互联网的这些特点导致人工收集情报的效率比较低。计算机技术的飞速发展使情报收集过程自动化成为可能。情报人员需要具备的一个重要技能就是从每日涌现在互联网上的海量信息中快速、准确地获取有用信息。他们工作的重要内容之一就是每日关注一些网站，这些网站可能是重要情报的来源，对于不同的领域的情报人员，其关注的信息的类别会有所不同，为了尽可能的全面的收集他所需要的信息，他们不得不逐个访问相关的门户网站、论坛和博客，这种人工收集工作是低效的。对于这些情报人员来说，他们急切需要一种可以搜集互联网上动态信息工具。面对这种需求，有关人员研制了动态信息跟踪系统。用户只需将需要查看的网站添加到跟踪系统中，一旦这些网站有了更新的内容，系统就会自动将这些内容抓取回来并生成摘要，供情报人员查看，这个工具省去了情报人员逐个网站浏览的麻烦，提高情报人员工作的效率。但是网络世界瞬息万变，每天都有可能有新的网站建立起来，或者，情报人员以前没有发现的网站，如果情报人员不去发现这些与自身研究主题相关的新网站的话，可能会造成错失重要情报的后果。因此情报人员不能局限于固定跟踪的几个网站，他们需要不断发现新情报信息源并对其进行跟踪。如何才能发现新的信息源，如果仅靠人工发现的话，由于互联网的海量信息，会使得人工搜索的工作量巨大，且效率不高。因此我们想可以交给计算机来帮助我们发现这些新的网站，当网页上出现有关某主题的信息较多时，就有必要将它列为跟踪网站，通过网络将其抓取回来，交给情报人员判断是否要对这个网站动态跟踪。如何找到一种通过计算机自动发现这些网站方法，并且判定这些网站是否与情报人员所关注的领域的主题是相关的，这是个值得探讨并需要得到解决的问题。二、研究目的本课题的主要目的是要实现主题网站的自动发现，主题网站的自动发现时通过面向主题的网页信息采集，并且对采集回来的网站进行相关性分析来完成的。当前，网络情报的获取主要依靠人工浏览或搜索引擎来获取网络信息。人工浏览方式针对性强，能获得准确有效的竞争情报，但其工作量巨大、浏览范围有限。搜索引擎能根据搜索任务自动获得大量信息，给竞争情报的采集带来了便利。但当前的主流搜索引擎采用大众式服务模式，力争回答用户的所有查询，因此其核心指导思想是尽可能多地采集所有信息页面。这种不区分主题、覆盖一切的策略，给情报采集带来了一些负面效果，如降低了查准率和竞争情报的使用价值。面向主题的信息采集策略为解决这种难题提供了一种新的思路。面向主题的网络竞争情报采集系统仅访问Web页面中相关主题的页面，有利于提高情报采集的主题相关度，从而减少页面采集的范围，提高情报采集的速度和效率。在理论研究方面，本课题的目的是提出面向主题信息采集的一整套解决方案，以便实现主题网站的自动发现。在实际应用方面，本课题的目的是在理论研究的基础上开发相关工具自动发现用户给定的主题网站下的最最相关的网站，提高情报人员检索信息的效率，提升情报人员捕获新的主题网站的能力，以便情报人员对这些网站进行跟踪。必要性、重要性和意义互联网是一个巨大的、分布全球的信息服务中心。在互联网海量的信息中，人工的方式获取信息变得非常耗时耗力，借助计算机自动的发现所需要的最重要的资源变得越来越重要。因此我们很有必要研究相关的理论与方法来利用计算机帮助我们自动地发现情报人员所可能关注的主题网站，以帮助情报人员发现新的信息源，获取最新的动态情报。同时互联网信息的时效性越来越强，资源的量也越来越大，并且逐步成为人们发布信息的首选平台，使得情报人员对于互联网信息的依赖性也越来越强，充分利用好这些互联网的信息对于情报人员的工作