网站大量收购独家精品文档,联系QQ:2885784924

sphinx全文检索之PHP使用教程解析.doc

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
sphinx全文检索之PHP使用教程解析

sphinx全文检索之PHP使用教程 这是半年前没有对外写的文章,现在拿出来分享下。可能会有一些不正确或不严谨的地方,某些语言可能比较轻浮,请见谅。 以上一篇的email数据表为例: 数据结构: CREATE TABLE email ( emailid mediumint(8) unsigned NOT NULL auto_increment COMMENT 邮件id, fromid int(10) unsigned NOT NULL default 0 COMMENT 发送人ID, toid int(10) unsigned NOT NULL default 0 COMMENT 收件人ID, content text unsigned NOT NULL COMMENT 邮件内容, subject varchar(100) unsigned NOT NULL COMMENT 邮件标题, sendtime int(10) NOT NULL COMMENT 发送时间, attachment varchar(100) NOT NULL COMMENT 附件ID,以逗号分割, PRIMARY KEY (emailid), ) ENGINE=MyISAM; 使用打开控制台,必需打开控制台PHP才能连接到sphinx(确保你已经建立好索引源): d:\coreseek\bin\searchd -c d:\coreseek\bin\sphinx.conf coreseek/api目录下提供了PHP的接口文件 sphinxapi.php,这个文件包含一个SphinxClient的类 在PHP引入这个文件,new一下 $sphinx = new SphinxClient(); //sphinx的主机名和端口 $sphinx-SetServer ( loclahost, 9312 ); //设置返回结果集为php数组格式 $sphinx-SetArrayResult ( true ); //匹配结果的偏移量,参数的意义依次为:起始位置,返回结果条数,最大匹配条数 $sphinx-SetLimits(0, 20, 1000); //最大搜索时间 $sphinx-SetMaxQueryTime(10); //执行简单的搜索,这个搜索将会查询所有字段的信息,要查询指定的字段请继续看下文 $index = email //索引源是配置文件中的 index 类,如果有多个索引源可使用,号隔开:email,diary 或者使用*号代表全部索引源 $result = $sphinx-query (搜索关键字, $index); echo ; print_r($result); echo ; $result是一个数组,其中 total是匹配到的数据总数量 matches是匹配的数据,包含id,attrs这些信息 words是搜索关键字的分词 你可能奇怪为什么没有邮件的内容这些信息,其实sphinx并不会返回像mysql那样的数据数组,因为sphinx本来就没有记录完整的数据,只记录被分词后的数据。 具体还要看matches数组,matches中的ID就是指配置文件中sql_query SELECT语句中的第一个字段,我们配置文件中是这样的 sql_query = SELECT emailid,fromid,toid,subject,content,sendtime,attachement FROM email 所以matches中的ID是指emailid 至于weight是指匹配的权重,一般权重越高被返回的优先度也最高,匹配权重相关内容请参考官方文档 attrs是配置文件中sql_attr_ 中的信息,稍后会提到这些属性的用法 说了这么多,即使搜索到结果也不是我们想要的email数据,但事实sphinx是不记录真实数据的,所以要获取到真实email数据还要根据matches中的ID去搜索mysql的email表,但总体来说这样一来一回的速度还是远远比mysql的LIKE快得多,前提是几十万数据量以上,否则用sphinx只会更慢。 接下来介绍sphinx一些类似mysql条件的用法 //emailid的范围 $sphinx-SetIdRange($min, $max); //属性过滤,可过滤的属性必需在配置文件中设置sql_attr_ ,之前我们定义了这些 sql_attr_uint = fromid sql_attr_uint

文档评论(0)

4477704 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档