AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / user-13180

user658182's questions

Martin Hope
user658182
Asked: 2013-07-04 12:23:05 +0800 CST

如何更好地优化我的表和 LEFT JOIN 查询以查找正确表中尚不存在的项目?

  • 0

我有两个表,它们代表 url 列表及其相关的单词索引。以下是供参考的表定义。

desc urllist;
+-------+---------------------+------+-----+---------+----------------+
| Field | Type                | Null | Key | Default | Extra          |
+-------+---------------------+------+-----+---------+----------------+
| id    | bigint(20) unsigned | NO   | PRI | NULL    | auto_increment |
| url   | text                | NO   |     | NULL    |                |
+-------+---------------------+------+-----+---------+----------------+

和

desc wordlocation;
+----------+---------------------+------+-----+---------+-------+
| Field    | Type                | Null | Key | Default | Extra |
+----------+---------------------+------+-----+---------+-------+
| urlid    | bigint(20) unsigned | NO   |     | NULL    |       |
| wordid   | bigint(20) unsigned | NO   |     | NULL    |       |
| location | int(10) unsigned    | NO   |     | NULL    |       |
+----------+---------------------+------+-----+---------+-------+

该软件应用程序是一个网络蜘蛛。它爬取一个 url 列表,提取这些 url,并将它们插入到urllist表中。然后,索引器检查哪些 url 还没有被索引,然后继续索引这些 url。

这是我用来在左表 ( urllist) 中查找尚未在右表 ( wordlocation) 中编制索引的项目的查询。此查询与mysql.com 网站上的建议一致:

select * from urllist ul 
left join wordlocation wl on ul.id = wl.urlid 
where wl.urlid IS NULL;

在撰写本文时,我的测试数据库只有 600 个索引 url,而 wordlocation 表有 130 万行。但是,我的 CPU 是 100%,我等待查询是否完成的最长时间是半小时(顺便说一句,它从来没有这样做过)。

为了彻底,这里是查询的解释:

explain select * from urllist ul left join wordlocation wl on ul.id = wl.urlid where wl.urlid IS NULL;
+----+-------------+-------+------+---------------+------+---------+------+---------+-------------------------+
| id | select_type | table | type | possible_keys | key  | key_len | ref  | rows    | Extra                   |
+----+-------------+-------+------+---------------+------+---------+------+---------+-------------------------+
|  1 | SIMPLE      | ul    | ALL  | NULL          | NULL | NULL    | NULL |   50364 |                         |
|  1 | SIMPLE      | wl    | ALL  | NULL          | NULL | NULL    | NULL | 1351371 | Using where; Not exists |
+----+-------------+-------+------+---------------+------+---------+------+---------+-------------------------+

我需要这个查询在几秒钟内完成,而不是几分钟。另外,我担心可扩展性。我有 40,000 个唯一的 url 等待添加到索引中,那么如何在我的表和查询设计中考虑到这一点?400,000 个网址?

关于我对当前表结构的决定的​​几点说明。

我无意停留在 400,000 个 url,但也许 bigint(20) 有点过分热心?

网址作为文本是出于更实际的原因。我索引了很多亚洲和其他外语域,这些域在数据库中不显示为对应的汉字或其他字符,并且经常占用超过 255 个字符。

我正在使用 MySQL。我绝对愿意接受有关更好的表和查询设计的建议。如果我能提供更多信息,请告诉我。

mysql database-design
  • 2 个回答
  • 5801 Views
Martin Hope
user658182
Asked: 2013-07-02 04:02:24 +0800 CST

如何从单列必须包含两个(或更多)值的表中选择项目?

  • 6

我有一个 MySQL 数据库表,它引用了不同的单词及其在文档中的位置。我想返回包含所有单词的文档的 ID。

这是一个示例表。

docid     wordid
1         4
2         4
1         2
1         5

好的,现在假设有人在数据库中查询了 WORDID 为 4、2 和 5 的单词。

我错误的 SQL SELECT 语句类似于:

Select docid from table where wordid = 4 and wordid = 2 and wordid = 5

这给了我 0 个结果。

我在其他建议该条款的地方看到过:where in

如果我理解正确,这是编写 OR 子句的另一种方式。我试过这个:

select docid from table where wordid in (4,2,5)

但是,这给了我所有的结果。它应该排除 docid 2,因为它不包含其他单词。我期待得到 docid 1。

但是,我可能会where in错误地使用该子句,因为我的数据库经验很少。

如何返回包含所有单词的 docid?

另请注意,我的 where 子句将在 FOR 循环中动态生成。查询可以是一两个词,也可以是 10 或 12 个词。我正在寻找一种考虑速度的查询结构。如果您需要更多信息,请告诉我。

作为参考,我正在尝试将此代码转换为 PHP / MYSQL,但我不理解此处的 sql 语句或其在 MYSQL 中的等效项:

http://my.safaribooksonline.com/book/web-development/9780596529321/4dot-searching-and-ranking/querying

mysql select
  • 1 个回答
  • 97863 Views
Martin Hope
user658182
Asked: 2012-10-05 15:30:00 +0800 CST

如何配置 MySQL Innodb 以每小时处理 1000 次插入?

  • 10

我有一个流量很高的网站,每小时可能会插入 1000 条新记录。

这一错误使网站陷入瘫痪:

PDOException: SQLSTATE[40001]: Serialization failure: 1213 
Deadlock found when trying to get lock; 
try restarting transaction: INSERT INTO {location_instance} 
(nid, vid, uid, genid, lid) VALUES (:db_insert_placeholder_0, 
:db_insert_placeholder_1, :db_insert_placeholder_2, 
:db_insert_placeholder_3, :db_insert_placeholder_4); 
Array ( [:db_insert_placeholder_0] => 1059 [:db_insert_placeholder_1] => 
1059 [:db_insert_placeholder_2] => 0 [:db_insert_placeholder_3] => 
cck:field_item_location:1059 [:db_insert_placeholder_4] => 1000 )

如果 MySQL 不能处理这种类型的负载,我会感到非常惊讶。那么,我的问题是,这是一个数据库问题吗?如何配置 MySQL 来处理这么多的流量?

我在开发服务器上设置了我的网站副本,其中包含模拟添加到网站的内容负载的脚本。我正在运行具有 16GB RAM 的 Ubuntu、LAMP 堆栈。

诚然,我对数据库不是很了解。事实上,我是从“apt-get install”完成后附带的默认 my.cnf 开始的。表都是 Innodb。你会推荐什么起始配置设置和方法来开始解决这个问题?

让我知道您可能需要更多信息。

谢谢

mysql performance
  • 2 个回答
  • 24082 Views

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目

    • 12 个回答
  • Marko Smith

    如何让sqlplus的输出出现在一行中?

    • 3 个回答
  • Marko Smith

    选择具有最大日期或最晚日期的日期

    • 3 个回答
  • Marko Smith

    如何列出 PostgreSQL 中的所有模式?

    • 4 个回答
  • Marko Smith

    列出指定表的所有列

    • 5 个回答
  • Marko Smith

    如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

    • 4 个回答
  • Marko Smith

    你如何mysqldump特定的表?

    • 4 个回答
  • Marko Smith

    使用 psql 列出数据库权限

    • 10 个回答
  • Marko Smith

    如何从 PostgreSQL 中的选择查询中将值插入表中?

    • 4 个回答
  • Marko Smith

    如何使用 psql 列出所有数据库和表?

    • 7 个回答
  • Martin Hope
    Jin 连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane 如何列出 PostgreSQL 中的所有模式? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh 为什么事务日志不断增长或空间不足? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland 列出指定表的所有列 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney MySQL 能否合理地对数十亿行执行查询? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx 如何监控大型 .sql 文件的导入进度? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison 你如何mysqldump特定的表? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 对 SQL 查询进行计时? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas 如何从 PostgreSQL 中的选择查询中将值插入表中? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 列出所有数据库和表? 2011-02-18 00:45:49 +0800 CST

热门标签

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve