Ian

Asked: 2010-02-23 07:14:23 +0800 CST2010-02-23 07:14:23 +0800 CST 2010-02-23 07:14:23 +0800 CST

将结果扔进 mysql 的站点爬虫/蜘蛛

772

有人建议我们使用 mysql 进行网站搜索，因为它将在托管我们的 Web 服务器 (nginx) 和我们的数据库 (mysql) 的同一台服务器上运行。

由于并非我们所有的页面都是从数据库创建的，因此建议我们有一个可以爬取站点的爬虫，并将页面 url 和数据折腾到 mysql 并在其上有 sphinx 索引。

有谁知道有一个开箱即用的 mysql 存储选项的开源蜘蛛。

谢谢。

1 个回答

Voted

Best Answer

konung
2010-03-18T07:54:55+08:002010-03-18T07:54:55+08:00
我认为 sphider 是您正在寻找的东西 - 我们之前使用它的结果还不错。另外它可以索引pdf和文档，这非常有用

http://www.sphider.eu/
1

Web Analytics