有人建议我们使用 mysql 进行网站搜索,因为它将在托管我们的 Web 服务器 (nginx) 和我们的数据库 (mysql) 的同一台服务器上运行。
由于并非我们所有的页面都是从数据库创建的,因此建议我们有一个可以爬取站点的爬虫,并将页面 url 和数据折腾到 mysql 并在其上有 sphinx 索引。
有谁知道有一个开箱即用的 mysql 存储选项的开源蜘蛛。
谢谢。
有人建议我们使用 mysql 进行网站搜索,因为它将在托管我们的 Web 服务器 (nginx) 和我们的数据库 (mysql) 的同一台服务器上运行。
由于并非我们所有的页面都是从数据库创建的,因此建议我们有一个可以爬取站点的爬虫,并将页面 url 和数据折腾到 mysql 并在其上有 sphinx 索引。
有谁知道有一个开箱即用的 mysql 存储选项的开源蜘蛛。
谢谢。
我认为 sphider 是您正在寻找的东西 - 我们之前使用它的结果还不错。另外它可以索引pdf和文档,这非常有用
http://www.sphider.eu/