获得来自搜索引擎的关键字.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
获得来自搜索引擎的关键字 一般情况下通过关键词进入的页面都是用户想要的内容,对于某些搜索搜录与关键 词相关度不是很高的页面(例如列表页),我们需要根据用户搜索的关键词对用户进行 引导,从而提高用户的体验,也可以提高网页的PV。 本文的原理是通过获取来源页面,分析来源URL的结构,提取出关键字,这些都 是比较简单的东西。本文阐述重点是如何区分出几种常见的URL编码方式,然后进行 相应的解码。因为应用是在ASP 中进行,因此本文若有代码相关的例子,均是在ASP 下调试通过的。其他语言下思想相同,且实现相对简单些。 提取各个搜索引擎的关键字 现在的各大搜索引擎全是基于GET 请求方式的,即在URL 后面带有一串参数。例 如:我搜索“秋寒博客” 谷歌:/search?sourceid=navclienthl=zh-CNie=UTF-8rlz=1T 4GGLL_zh-CN___CN352q=%e7%a7%8b%e5%af%92%e5%8d%9a%e5%ae%a2 百度:/s?wd=%C7%EF%BA%AE%B2%A9%BF%CD 必应:/search?q=%E7%A7%8B%E5%AF%92%E5%8D%9A%E5%A E%A2form=QBLHfilt=all 谷歌和Google 的 q=%e7%a7%8b%e5%af%92%e5%8d%9a%e5%ae%a2 ,百度的 w d=%C7%EF%BA%AE%B2%A9%BF%CD ,必应的 q=%E7%A7%8B%E5%AF%92%E5 %8D%9A%E5%AE%A2 中带下划线部分就是关键词。其他搜索引擎也大致相同,通过 URL 就可以看出关键词的字段是哪个,然后可以通过正则将关键词提出。 提取主流搜索关键词的正则如下: (?:yahoo.+?[\?|]p=|openfind.+?query=|google.+?q=|lycos.+?query=|onseek.+?keyword =|search\.tom.+?word=|search\.qq\.com.+?word=|zhongsou\.com.+?word=|search\.msn\.com. +?q=|yisou\.com.+?p=|sina.+?word=|sina.+?query=|sina.+?_searchkey=|sohu.+?word=|sohu.+? key_word=|sohu.+?query=|163.+?q=|baidu.+?wd=|baidu.+?kw=|baidu.+?word=|3721\.com.+? p=|Alltheweb.+?q=|soso.+?w=|115.+?q=|youdao.+?q=|sogou.+?query=|bing.+?q=|114.+?kw=) ([^]*) 以上正则是我根据网上的正则有所修改,让其支持soso、115、youdao、sogou、b ing(必应)、114(或118114)这些搜索,感谢作者提供。因为网上转载太多,尚未注明 原出处,因此我也无法标明原作者。 编码类型的识别 GB2312和UTF-8 从上面的例子我们可以看出,同样是搜索“秋寒博客”,但是不同的搜索对URL 编 码后,形成的字符串也不同。谷歌和必应下面是“%e7%a7%8b%e5%af%92%e5%8d%9a %e5%ae%a2”,而在百度却是“%C7%EF%BA%AE%B2%A9%BF%CD”。相信对网页编 码了解的朋友都应该了解这是怎么回事,不同的页面编码(charset)对相同的字符进行 编码后,产生的编码也是不同的。UTF-8默认产生的是UTF-8的编码,默认解码也是U TF-8。GB2312等也一样的。谷歌和必应用的是UTF-8编码,而百度用的是GB2312编码, 就造成了相同的关键词在不同的搜索下产生了不同的字符串。 对于UTF-8和GB2312的解码都可以实现,但是如果不知道目标是什么编码方式, 就不知道如何去解码了。如上面的两个字符串,初给你看,看不来是用何种编码方式。 当然第一反应是通过搜索来判断编码方式,这种方法确实可行也有效。但是看看上面的 正则,如果用这种方法,那么一个 if 后面要跟很多的 or 才行。网上一般用的也是这 样的方法,我觉得这个不是最好的方法。我们得知的信息有:1、%xx%xx格式都是UR L编码(UTF-8或GB2312);2、GB2312中汉字要两组%xx组成一个汉字,UTF-8要三 组%xx组成一个汉

文档评论(0)

li455504605 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档