- 1、本文档共186页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大或最长匹配和最小或最短匹配;按照是否与词性标注过程相结合,又分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法有:正向最大匹配、逆向最大匹配和最少切分(使每一句中切出的词数最小。还可以将以上三种方法相互组合。如可以将正向最大匹配方法和逆向最大匹配方法相互结合起来构成双向匹配法。由于汉字单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般来说,逆向匹配的切分精度高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。(汉语的中心语靠后的特点)基于统计的分词方法。从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好地反映成词的可信度。一种常用的方法是对语料中的相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一阀值时,便可认为此字组可能构成了一个词。这种方法只需对语料库中的字组频度进行统计,不需要进行切分字典,因此又称为无词典分词法或统计取词方法。在实际应用中,一般只考虑?个汉子组成词的情况,因为大于?的字符组成词语的可能性很小。只有特征④是不需要网页内容就可以确定的,因此对于搜集策略的确定,特征④是最值得考虑的指导因素。整个Web就像一个深不见底的海洋。将这个海洋分成两个层次:表层和底层表层包含的主要是静态网页(staticWebpage,不需要提交查询信息即可获得的页面)底层包含的主要是动态网页(dynamicWebpage,需要通过提交查询信息获得含有内容的网页)目前搜索引擎主要集中在表层工作。在表层中重要网页的分布或者更接近于海面,或者更接近于底层。对于网页的搜集工作,就像一条捕鱼的船行驶在海面上,目的是撒网捕捉尽可能多而且重要的网页。实际搜集网页经验表明,网站的首页是漂浮在海面上的,网站数目远小于网页数,并且重要的网页也必然是从这些网站首页链接过去的,因此搜集工作应当优先获取尽可能多的网站首页。因此宽度优先搜集是尽快获得重要网页最好的办法。采取宽度优先搜集最直接有效的方法就是根据网页的URL的目录深度确定优先级,这样既客观有容易获取所需。一般搜索引擎就根据网页的URL的目录深度和链接关系设定权值,以决定网页重要度,并优先搜集权值大的网页,实现类似于宽度优先搜集的启发式搜集策略。相对来说代价比较低的方法是面向主题(focused)或话题(topical)的信息采集。网络爬虫很难找到的站点统称为深层网络(deepweb),也被称为隐藏网络(hiddenweb)PrivatesiteFormresultScriptedpage私人站点:倾向于隐私内容,没有任何指向它的链接,或者在使用该站点之前,需要使用有效的账户进行注册。表单结果:通常需要在表单中填写数据才可以进入。如销售机票的站点,通常在页面的入口处会询问旅行的信息。大多数爬虫不可能越过这个表单获取航班时刻表的信息。(参见:搜索引擎:信息检索实践P25)脚本页面:是使用JavaScript、Flash或其他客户端语言的页面。如果一个链接并不是以HTML语言给出的,而是通过在浏览器中运行JavaScript生成的,爬虫需要在该网页上执行JavaScript才能找到这个链接。技术上可行,但会影响速度,增加系统的复杂性。按照“程序=算法+数据结构”的观点来考察程序,一个合适的数据结构是查询子系统的核心。现行最有效的数据结构是“倒排文件”(invertedfile).(组织和索引文件、以便于检索的一种方法。在该方法中,一个关键词的集合是基础,该集合中每一个关键词对应一串记录项,其中每一项包含一个文档编号、该关键字在该文档中出现的情况等信息)倒排优点在于可支持快速的多途径检索,组配检索尤为方便,多数联机检索都使用倒排档进行检索或辅助检索。其缺点是建立倒排档需要时间和空间,维护较困难。倒排文件是用文档中所含关键词作为索引、文档作为索引目标的一种结构。预处理即网页集合形成倒排文件过程的几个主要问题:关键词的提取、“镜像网页”的消除、链接分析和网页重要程度的计算。一篇网页的源文件(通过浏览器的“查看源文件”功能)的情况纷繁复杂。除了可以看见的文字内容外,还有大量的HTML标记。根据统计,网页文档源文件的大小(字节量)通常大约是其中内容大小的4倍。此外,由于HTML文档产生来源的多样性,许多网页在内容上比较随意,不仅文字不规范、完整,而且还可能包括许多和主要内
文档评论(0)