获得来自搜索引擎的关键字.pdfVIP

下载本文档

5
0
约3.99千字
约 4页
2018-05-07 发布于福建
举报
版权申诉

获得来自搜索引擎的关键字.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

获得来自搜索引擎的关键字一般情况下通过关键词进入的页面都是用户想要的内容，对于某些搜索搜录与关键词相关度不是很高的页面（例如列表页），我们需要根据用户搜索的关键词对用户进行引导，从而提高用户的体验，也可以提高网页的PV。本文的原理是通过获取来源页面，分析来源URL的结构，提取出关键字，这些都是比较简单的东西。本文阐述重点是如何区分出几种常见的URL编码方式，然后进行相应的解码。因为应用是在ASP 中进行，因此本文若有代码相关的例子，均是在ASP 下调试通过的。其他语言下思想相同，且实现相对简单些。提取各个搜索引擎的关键字现在的各大搜索引擎全是基于GET 请求方式的，即在URL 后面带有一串参数。例如：我搜索“秋寒博客” 谷歌：/search?sourceid=navclienthl=zh-CNie=UTF-8rlz=1T 4GGLL_zh-CN___CN352q=%e7%a7%8b%e5%af%92%e5%8d%9a%e5%ae%a2 百度：/s?wd=%C7%EF%BA%AE%B2%A9%BF%CD 必应：/search?q=%E7%A7%8B%E5%AF%92%E5%8D%9A%E5%A E%A2form=QBLHfilt=all 谷歌和Google 的 q=%e7%a7%8b%e5%af%92%e5%8d%9a%e5%ae%a2 ，百度的 w d=%C7%EF%BA%AE%B2%A9%BF%CD ，必应的 q=%E7%A7%8B%E5%AF%92%E5 %8D%9A%E5%AE%A2 中带下划线部分就是关键词。其他搜索引擎也大致相同，通过 URL 就可以看出关键词的字段是哪个，然后可以通过正则将关键词提出。提取主流搜索关键词的正则如下： (?:yahoo.+?[\?|]p=|openfind.+?query=|google.+?q=|lycos.+?query=|onseek.+?keyword =|search\.tom.+?word=|search\.qq\.com.+?word=|zhongsou\.com.+?word=|search\.msn\.com. +?q=|yisou\.com.+?p=|sina.+?word=|sina.+?query=|sina.+?_searchkey=|sohu.+?word=|sohu.+? key_word=|sohu.+?query=|163.+?q=|baidu.+?wd=|baidu.+?kw=|baidu.+?word=|3721\.com.+? p=|Alltheweb.+?q=|soso.+?w=|115.+?q=|youdao.+?q=|sogou.+?query=|bing.+?q=|114.+?kw=) ([^]*) 以上正则是我根据网上的正则有所修改，让其支持soso、115、youdao、sogou、b ing（必应）、114（或118114）这些搜索，感谢作者提供。因为网上转载太多，尚未注明原出处，因此我也无法标明原作者。编码类型的识别 GB2312和UTF-8 从上面的例子我们可以看出，同样是搜索“秋寒博客”，但是不同的搜索对URL 编码后，形成的字符串也不同。谷歌和必应下面是“%e7%a7%8b%e5%af%92%e5%8d%9a %e5%ae%a2”，而在百度却是“%C7%EF%BA%AE%B2%A9%BF%CD”。相信对网页编码了解的朋友都应该了解这是怎么回事，不同的页面编码（charset）对相同的字符进行编码后，产生的编码也是不同的。UTF-8默认产生的是UTF-8的编码，默认解码也是U TF-8。GB2312等也一样的。谷歌和必应用的是UTF-8编码，而百度用的是GB2312编码，就造成了相同的关键词在不同的搜索下产生了不同的字符串。对于UTF-8和GB2312的解码都可以实现，但是如果不知道目标是什么编码方式，就不知道如何去解码了。如上面的两个字符串，初给你看，看不来是用何种编码方式。当然第一反应是通过搜索来判断编码方式，这种方法确实可行也有效。但是看看上面的正则，如果用这种方法，那么一个 if 后面要跟很多的 or 才行。网上一般用的也是这样的方法，我觉得这个不是最好的方法。我们得知的信息有：1、%xx%xx格式都是UR L编码（UTF-8或GB2312）；2、GB2312中汉字要两组%xx组成一个汉字，UTF-8要三组%xx组成一个汉