user658182提出的问题 -dba

user658182

Asked: 2013-07-04 12:23:05 +0800 CST

如何更好地优化我的表和 LEFT JOIN 查询以查找正确表中尚不存在的项目？

0

我有两个表，它们代表 url 列表及其相关的单词索引。以下是供参考的表定义。

desc urllist;
+-------+---------------------+------+-----+---------+----------------+
| Field | Type                | Null | Key | Default | Extra          |
+-------+---------------------+------+-----+---------+----------------+
| id    | bigint(20) unsigned | NO   | PRI | NULL    | auto_increment |
| url   | text                | NO   |     | NULL    |                |
+-------+---------------------+------+-----+---------+----------------+

和

desc wordlocation;
+----------+---------------------+------+-----+---------+-------+
| Field    | Type                | Null | Key | Default | Extra |
+----------+---------------------+------+-----+---------+-------+
| urlid    | bigint(20) unsigned | NO   |     | NULL    |       |
| wordid   | bigint(20) unsigned | NO   |     | NULL    |       |
| location | int(10) unsigned    | NO   |     | NULL    |       |
+----------+---------------------+------+-----+---------+-------+

该软件应用程序是一个网络蜘蛛。它爬取一个 url 列表，提取这些 url，并将它们插入到urllist表中。然后，索引器检查哪些 url 还没有被索引，然后继续索引这些 url。

这是我用来在左表 ( urllist) 中查找尚未在右表 ( wordlocation) 中编制索引的项目的查询。此查询与mysql.com 网站上的建议一致：

select * from urllist ul 
left join wordlocation wl on ul.id = wl.urlid 
where wl.urlid IS NULL;

在撰写本文时，我的测试数据库只有 600 个索引 url，而 wordlocation 表有 130 万行。但是，我的 CPU 是 100%，我等待查询是否完成的最长时间是半小时（顺便说一句，它从来没有这样做过）。

为了彻底，这里是查询的解释：

explain select * from urllist ul left join wordlocation wl on ul.id = wl.urlid where wl.urlid IS NULL;
+----+-------------+-------+------+---------------+------+---------+------+---------+-------------------------+
| id | select_type | table | type | possible_keys | key  | key_len | ref  | rows    | Extra                   |
+----+-------------+-------+------+---------------+------+---------+------+---------+-------------------------+
|  1 | SIMPLE      | ul    | ALL  | NULL          | NULL | NULL    | NULL |   50364 |                         |
|  1 | SIMPLE      | wl    | ALL  | NULL          | NULL | NULL    | NULL | 1351371 | Using where; Not exists |
+----+-------------+-------+------+---------------+------+---------+------+---------+-------------------------+

我需要这个查询在几秒钟内完成，而不是几分钟。另外，我担心可扩展性。我有 40,000 个唯一的 url 等待添加到索引中，那么如何在我的表和查询设计中考虑到这一点？400,000 个网址？

关于我对当前表结构的决定的几点说明。

我无意停留在 400,000 个 url，但也许 bigint(20) 有点过分热心？

网址作为文本是出于更实际的原因。我索引了很多亚洲和其他外语域，这些域在数据库中不显示为对应的汉字或其他字符，并且经常占用超过 255 个字符。

我正在使用 MySQL。我绝对愿意接受有关更好的表和查询设计的建议。如果我能提供更多信息，请告诉我。

user658182

Asked: 2013-07-02 04:02:24 +0800 CST

如何从单列必须包含两个（或更多）值的表中选择项目？

6

我有一个 MySQL 数据库表，它引用了不同的单词及其在文档中的位置。我想返回包含所有单词的文档的 ID。

这是一个示例表。

docid     wordid
1         4
2         4
1         2
1         5

好的，现在假设有人在数据库中查询了 WORDID 为 4、2 和 5 的单词。

我错误的 SQL SELECT 语句类似于：

Select docid from table where wordid = 4 and wordid = 2 and wordid = 5

这给了我 0 个结果。

我在其他建议该条款的地方看到过：where in

如果我理解正确，这是编写 OR 子句的另一种方式。我试过这个：

select docid from table where wordid in (4,2,5)

但是，这给了我所有的结果。它应该排除 docid 2，因为它不包含其他单词。我期待得到 docid 1。

但是，我可能会where in错误地使用该子句，因为我的数据库经验很少。

如何返回包含所有单词的 docid？

另请注意，我的 where 子句将在 FOR 循环中动态生成。查询可以是一两个词，也可以是 10 或 12 个词。我正在寻找一种考虑速度的查询结构。如果您需要更多信息，请告诉我。

作为参考，我正在尝试将此代码转换为 PHP / MYSQL，但我不理解此处的 sql 语句或其在 MYSQL 中的等效项：

http://my.safaribooksonline.com/book/web-development/9780596529321/4dot-searching-and-ranking/querying

user658182

Asked: 2012-10-05 15:30:00 +0800 CST

如何配置 MySQL Innodb 以每小时处理 1000 次插入？

10

我有一个流量很高的网站，每小时可能会插入 1000 条新记录。

这一错误使网站陷入瘫痪：

PDOException: SQLSTATE[40001]: Serialization failure: 1213 
Deadlock found when trying to get lock; 
try restarting transaction: INSERT INTO {location_instance} 
(nid, vid, uid, genid, lid) VALUES (:db_insert_placeholder_0, 
:db_insert_placeholder_1, :db_insert_placeholder_2, 
:db_insert_placeholder_3, :db_insert_placeholder_4); 
Array ( [:db_insert_placeholder_0] => 1059 [:db_insert_placeholder_1] => 
1059 [:db_insert_placeholder_2] => 0 [:db_insert_placeholder_3] => 
cck:field_item_location:1059 [:db_insert_placeholder_4] => 1000 )

如果 MySQL 不能处理这种类型的负载，我会感到非常惊讶。那么，我的问题是，这是一个数据库问题吗？如何配置 MySQL 来处理这么多的流量？

我在开发服务器上设置了我的网站副本，其中包含模拟添加到网站的内容负载的脚本。我正在运行具有 16GB RAM 的 Ubuntu、LAMP 堆栈。

诚然，我对数据库不是很了解。事实上，我是从“apt-get install”完成后附带的默认 my.cnf 开始的。表都是 Innodb。你会推荐什么起始配置设置和方法来开始解决这个问题？

让我知道您可能需要更多信息。

谢谢

如何更好地优化我的表和 LEFT JOIN 查询以查找正确表中尚不存在的项目？

如何从单列必须包含两个（或更多）值的表中选择项目？

如何配置 MySQL Innodb 以每小时处理 1000 次插入？

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

user658182's questions