用PHP构建自定义搜索引擎

http://tech.ddvip.com   2007年09月12日    社区交流

内容摘要:虽然 Google 及其系列产品几乎无所不能,但是 Web 形式的强大搜索引擎并不能很好地适用于每个站点。如果站点内容已被高度专业化或已明确分类,那就需要使用 Sphinx 和 PHP 来创建一个优化的本地搜索系统。

  但是很多搜索代价较大:

  查找所有模型和版本中出现零件号开头为 “WIN” 的所有零件

  查找描述中有 “lacquer” 或 “paint” 的那些零件

  查找描述中有 “black leather” 的所有零件

  查找描述中有 “paint” 的所有 2002 J 系列零件

  这些搜索中的每个搜索都要求使用长篇的 JOIN 子句或代价高昂的 LIKE 子句,尤其是在 Inventory 表和 Schematic 表十分大时更是如此。而且,复杂的文本搜索完全超出了 MySQL 的能力。要搜索大量文本数据,请考虑构建和使用 Sphinx 索引。

  集成 Sphinx 软件

  要应用 Sphinx 来解决问题,您必须定义一个或多个数据源以及一个或多个索引。

  source 将标识数据库来建立索引,提供验证信息,并且定义查询用以构造每行。数据源可以随意地标识一列或多列作为过滤器,Sphinx 将之称为组。您将使用组来过滤结果。例如,单词描述可能得到 900 个匹配。如果只对特定型号的汽车匹配感兴趣,则可以进一步使用型号组进行过滤。

  index 将要求获得数据源(即一组数据行)并定义应当如何为已从数据源中提取出来的数据编目。

  您将在 sphinx.conf 文件中定义数据源和索引。Body Parts 的数据源是 MySQL 数据库。清单 5 显示了名为 catalog 的数据源的部分定义 —— 指定连接的数据库以及如何建立连接(主机、套接字、用户和密码)的代码片段。

  清单 5. 用于访问 MySQL 数据库的设置

source catalog
{
  type              = mysql
  
  sql_host            = localhost
  sql_user            = reaper
  sql_pass            = s3cr3t
  sql_db             = body_parts
  sql_sock            = /var/run/mysqld/mysqld.sock
  sql_port            = 3306         

来源:ibm    作者:Martin Streicher    责编:豆豆技术应用

正在加载评论...