SQL从一个表中获取另一个表中的多个条目的ID

Question

Kekar

Asked: 2021-11-12 02:13:08 +0800 CST2021-11-12 02:13:08 +0800 CST 2021-11-12 02:13:08 +0800 CST

Cassandra 中的查询性能改进

772

我的 Cassandra 数据库中有一张桌子。

CREATE TABLE table (
    pk uuid,
    status int,
    location text,
    type text,
    id  text,
updatedtimestamp timestamp, 
        PRIMARY KEY (pk)
);

CREATE INDEX  tablelocation ON table (location);
CREATE INDEX  tabletype ON table (type);
CREATE INDEX  tableid ON table (id);
CREATE INDEX  tableupdatedtimestamp ON table (updatedtimestamp);

我运行的查询是：

Select * from table 
where location='A1' 
and type='T1' 
and status=001 
and id='NA' 
allow filtering;

Cassandra 需要超过 5 秒的时间来为该查询返回 4000 条记录。我已经在所有这些列上都有二级索引。根据 DBA，问题是id='NA'有条件的。此条件为真的行太多。

但是，这种情况是由于业务用例而存在的，如果没有其他机制来过滤该值，就无法删除该条件。

我正在考虑创建一个包含所有 4 列的新索引。但是，我担心它会妨碍写入性能。状态栏会非常频繁地更新。

我们可以做些什么来调整这个查询的性能吗？

2 个回答

Voted

Aaron · Answer 1 · 2021-12-04T08:49:18+08:00

使用 Cassandra 进行索引永远不会高效，因为它不是设计的。Cassandra 的 4000 行并不是什么大问题。但是查询集群中所有节点的 4000 行，现在您已将网络时间添加到等式中。

如果您希望执行此操作，您需要做的是构建一个表来支持此查询。具体来说，这意味着设计一个主键结构，以便查询可以由单个节点提供服务。

根据位置和类型的基数，您可以尝试以下操作：

CREATE TABLE table_by_location_type (
    pk uuid,
    status int,
    location text,
    type text,
    id  text,
    updatedtimestamp timestamp, 
    PRIMARY KEY ((location,type),id,pk)
);

CREATE INDEX  tablestatus ON table_by_location_type (status);

location这将按和对您的数据进行分区type，确保该列组合上的数据将存储在一起。接下来，这会将您的数据（在每个分区内id）聚类，并pk在末尾添加以确保唯一性。只要与and一起使用，索引就status可以了。locationtype

专业提示：

构建您的表格以适应您的查询。不是反过来。
如果您需要支持多种查询模式，请构建第二个表并将数据复制到其中。
二级索引是为了方便而不是性能而设计的。避免使用它们，除非您提供完整的分区键。
永远不要在生产中使用该ALLOW FILTERING指令。

John K. N. · Answer 2 · 2021-12-05T02:03:28+08:00

John K. N.

2021-12-05T02:03:28+08:002021-12-05T02:03:28+08:00

根据 Casandra CQL 文档ALLOW FILTER：

默认情况下，CQL 仅允许不涉及对所有分区的完整扫描的选择查询。如果扫描了所有分区，则返回结果可能会遇到与表中数据量成比例的显着延迟。ALLOW FILTERING选项显式执行完整扫描。因此，查询的性能可能是不可预测的。

^{参考：数据操作（Cassandra 文档）}

所以ALLOW FILTERING从你的语句中删除指令SELECT...，看看性能是否有所提高。

@Aaron 在他的回答中也指出了这一点：

永远不要在生产中使用该ALLOW FILTERING指令。

我刚刚从官方文档中添加了详细信息。

1

Cassandra 中的查询性能改进

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

Cassandra 中的查询性能改进

2 个回答

相关问题