一种基于树Whois解析方法.docVIP

下载本文档

5
0
约5.9千字
约 14页
2018-08-13 发布于福建
举报
版权申诉

一种基于树Whois解析方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于树Whois解析方法

一种基于树的Whois文档解析方法　　摘要：从分析信息收集的关键问题入手，针对该类信息的表示特点，提出了一种基于树的文本解析策略。该方法对于解决半结构化的文本信息解析具有一定的普遍意义。　　关键词：信息收集；Whois；文本解析　　中图分类号：TP393.08文献标志码：A 　　文章编号：1001―3695(2007)03―0072―04 　　目前，大多数对攻击的研究与实践是传统的主动探测和对安全漏洞的利用。由于这种主动探测需要与目标交互，常常容易被目标的防火墙或入侵检测系统记录。但是，很多组织忽视了信息泄露的潜在威胁，攻击者无须访问组织内部的服务器就可以通过公共服务被动收集组织内部的信息，从而逃避非法检测。2004年，NGS（Next Generation Security Software Ltd.）[1]提出被动信息收集（Passive Information Gathering）[2]的概念，引起很多组织对其信息泄露的重视。?? 　　信息收集的内容以Whois结果为主。本文从分析信息收集的关键问题入手，针对该类信息的表示特点，提出了一种基于树的文本解析策略。该方法对于解决半结构化的文本信息解析具有一定的普遍意义。　　　　1 相关研究?? 　　根据不同的获取方法，信息收集的结果一般有两种形式，即Web文档和半结构化的文本。　　1.1 Web信息抽取[3,4]?? 　　Web信息抽取通常利用包含在Web文档中的一些元信息、简单的句法、分隔符信息等来完成信息抽取工作。在该类信息抽取系统中多数使用包装器来进行信息抽取。包装器可以由手工创建，或者（半）自动化创建。在手工创建包装器的过程中，既可以使用知识工程途径，也可以使用由特定领域专家创建的本体论来手工创建包装器。为了减轻设计者的劳动强度，逐渐将机器学习技术应用于信息抽取。越来越多的信息抽取系统是（半）自动化地使用机器学习技术和数据挖掘技术等来创建的。机器学习中的一些成熟技术被用来创建信息抽取系统，如归纳逻辑编程、命题规则学习、朴素贝叶斯网络、隐马尔科夫模型等。?? 　　1.2 文本挖掘[5]?? 　　文本挖掘（Text Mining）是信息挖掘的一个研究分支，用于基于文本信息的知识发现。文本挖掘是利用智能算法，如神经网络、基于案例的推理、可能性推理等，并结合文字处理技术，分析大量的非结构化文本源（如文档、电子表格、客户电子邮件、问题查询、网页等），抽取或标记关键字概念，文字间的关系，并按照内容对文档进行分类，获取有用的知识和信息。文本挖掘研究的关键在于文本内容的量化表征。?? 　　针对面向信息收集的资源提取，目前已成形的文本挖掘和Web信息提取的方法过于复杂，需要找到更适合、更简洁的方法。　　　　2 问题分析?? 　　泄密信息收集往往是攻击的前奏，不仅包括对目标实体信息的公开查询和存储，还包括对信息的归类、提取和解析，为进一步分析和利用提供便利的信息基础。泄密信息收集的外延很广，针对其服务的对象，泄密信息收集的范围主要是全球范围内与目标网络特性相关的网络实体信息。这些信息可以通过各种渠道的公开查询获取。收集到的信息对于目标网络的定位、网络路径与地理位置的有机统一、网络规模和拓扑结构的探测与分析均有着重要的价值。　　2.1 数据源?? 　　收集的数据主要来自以下在线资源：　　（1）Internet服务注册商[6―10]?? 　　全球IP地址、AS信息的注册和维护机构。?? 　　（2）域名系统?? 　　域名的本地及全球注册和维护机构。?? 　　（3）搜索引擎?? 　　获取组织间链接关系的查询工具。?? 　　（4）其他数据集?? 　　与信息采集相关的其他数据集，包括Whois服务器信息、IP地址管理信息、地理位置信息等。?? 　　这些信息一般可以借助Web查询或相关协议查询，由于通过Web方式得到的数据存在很多HTML的标记信息，解析比较烦琐。在具体的实施中更侧重于采用相关协议查询返回的纯文本信息，如Whois查询、DNS查询等。下面显示了一段IP地址的Whois查询结果。　　2.2 关键问题?? 　　在实际情况下，不同的数据源返回的信息格式往往各不相同，甚至同一数据源返回的信息格式也有区别。另外，有些数据源还会更改其信息的表示格式，造成原来的解析算法完全不适用。?? 　　查询得到的文本内容体现了数据源的部分信息结构；提取过程中无须过多考虑文档结构，重点解决名称的相似性问题，即不同数据源在描述同一类数据时会采用不同的名称。这样导致文档解析功能的扩展和更新对数据源的依赖性很大。为了解决这一问题，需要找到一种适应性强、可扩展性好的解析策略。　　　　3 信息解析过程?? 　　首先引入两个特定