在 Vertica 中哪里可以找到角色有权访问的表？

Question

Andris Birkmanis

Asked: 2015-06-13 15:55:23 +0800 CST2015-06-13 15:55:23 +0800 CST 2015-06-13 15:55:23 +0800 CST

成对交叉

772

我有一个包含两列的表，假设是 FirstName 和 LastName。我需要得到另一个表，对于第一个中的每一对 FirstName，它都包含一个共同的 LastName 的计数。

这在 SQL 中是否可行？

如果这会影响查询效率，那么姓氏的唯一性要比名字多得多。

一个玩具示例，输入：

FirstName, LastName
John, Smith
John, Doe
Jane, Doe

输出：

FirstName1, FirstName2, CommonLastNames
John, John, 2
John, Jane, 1
Jane, Jane, 1
Jane, John, 1

由于此关系是自反和对称的，因此如果结果只是其中一个三角形（例如，对角线上方的那个）就可以了。

4 个回答

Voted

Michael Green · Answer 1 · 2015-06-14T02:26:05+08:00

我打算使用 MS SQL Server 来执行此操作，因为我手头有一份副本。我相信大多数专业都会这样做。

首先是一个带有数据的示例表。我使用一个表变量，但它对任何类型的表都是一样的。

declare @t table (FirstName char(10), LastName char(10));

insert @t(FirstName,LastName)
values ('John','Smith'),('John','Doe'),('Jane','Doe');

您可以通过自连接获得所有对：

select
    a.FirstName, a.LastName, b.FirstName, b.LastName
from @t as a
cross apply @t as b;

Using避免了为一个子句CROSS APPLY寻找一个连接条件而不得不跳来跳去。ON

接下来你需要一些东西来计算。这就是该CASE语句的用武之地。 case 为每对名字返回一个整数值，这就是要计算的值。（如果我正确地阅读了您的问题，您希望 LastNames 匹配的位置，这就是我的比较。希望如果我错了，如何修改它是显而易见的。）

select
    ...
    case
        when a.LastName = b.LastName then 1
        else 0
    end
...etc.

添加一个SUM()和GROUP BY你得到你的答案：

select
    a.FirstName,
    b.FirstName,
    sum(
    case
        when a.LastName = b.LastName then 1
        else 0
    end
    ) as CommonLastNames
from @t as a
cross apply @t as b
group by a.FirstName, b.FirstName;

Andris Birkmanis · Answer 2 · 2015-06-15T21:02:29+08:00

我不得不承认我的问题有点缺陷。我真正需要的不是“对于第一个名字中的每一对名字都包含一些共同的姓氏”。事实上，我不关心计数为零的对。

纠正问题后，解决方案会变得更快。

鉴于输入：

create local temp table t (FirstName char(10), LastName char(10)) ON COMMIT PRESERVE ROWS;
insert into t(FirstName,LastName) values ('John','Smith');
insert into t(FirstName,LastName) values ('John','Doe');
insert into t(FirstName,LastName) values ('Jane','Doe');

对于原始问题，解决方案是 O(N^2) （因为问题坚持“每一对”）：

select a.FirstName, b.FirstName, 
  sum(case when a.LastName = b.LastName then 1 else 0 end) CommonNames 
  from t a, t b group by 1, 2;

如果可以跳过零计数，那么 LastName 上的自连接工作得更快（假设数据足够稀疏）：

select a.FirstName, b.FirstName,
  count(*) CommonNames from t a
  join t b using (LastName) group by 1, 2;

我仍然想知道我是如何错过这个微不足道的解决方案的。

Rick James · Answer 3 · 2015-06-15T12:29:15+08:00

呸！这是一个更好的方法：

SELECT city_a, city_b, COUNT(*)
    FROM (
        SELECT a.city city_a,
               a.state,
               b.city city_b
        FROM       us a
        CROSS JOIN us b
        WHERE a.state = b.state
          AND a.city < b.city
         ) x
    GROUP BY city_a, city_b
    ORDER BY 3 DESC;

输出：

+-----------+-------------+----------+
| city_a    | city_b      | COUNT(*) |
+-----------+-------------+----------+
| Lebanon   | Springfield |        5 |
| Bedford   | Franklin    |        4 |  -- as shown in previous 'answer'
| Franklin  | Lebanon     |        4 |
| Franklin  | Hudson      |        4 |
| Franklin  | Salem       |        4 |
| Hudson    | Salem       |        4 |
| Salem     | Springfield |        4 |
| Clinton   | Columbia    |        4 |
| Auburn    | Fairfield   |        3 |
| Auburn    | Madison     |        3 |
...
(2.63 sec) -- for all 4175 cities in `us`.

第一项的健全性检查：

mysql> SELECT city, state FROM us WHERE city IN ('Lebanon', 'Springfield');
+-------------+-------+
| city        | state |
+-------------+-------+
| Springfield | FL    |
| Springfield | IL    |
| Lebanon     | IN    |
| Springfield | MA    |
| Lebanon     | ME    |
| Lebanon     | MO    |
| Springfield | MO    |
| Lebanon     | NH    |
| Springfield | NJ    |
| Lebanon     | OH    |
| Springfield | OH    |
| Lebanon     | OR    |
| Springfield | OR    |
| Lebanon     | PA    |
| Springfield | PA    |
| Lebanon     | TN    |
| Springfield | TN    |
| Springfield | VA    |
| Springfield | VT    |
+-------------+-------+
19 rows in set (0.00 sec)

主要的 Handler% STATUS 值表明它做了很多工作，但不完全是 O(N*N)（可能是因为 CROSS JOIN 一次只有一个状态）：

| Handler_read_key           | 4176   |
| Handler_read_next          | 667294 |
| Handler_read_rnd           | 1742   |
| Handler_read_rnd_next      | 701964 |
| Handler_update             | 1731   |
| Handler_write              | 703693 |

外推到数百万行——这可能需要几天时间。

Rick James · Answer 4 · 2015-06-15T07:50:22+08:00

这是一个有趣的挑战。使用美国城市列表，我想出了这个解决方案（在 MySQL 中）：

SELECT  city_a, city_b,
        COUNT(DISTINCT state)
    FROM (
        ( SELECT a.city city_a,
                 b.city city_b,
                 a.state            -- This line differs
            FROM       us a
            CROSS JOIN us b
            WHERE a.state = b.state
              AND a.city != b.city   -- Added (to avoid noise)
              AND a.city < 'M'    -- to speed up test
              AND b.city < 'M'
        )
        UNION ALL
        ( SELECT a.city city_a,
                 b.city city_b,
                 b.state            -- This line differs
            FROM       us a
            CROSS JOIN us b
            WHERE a.state = b.state
              AND a.city != b.city   -- Added (to avoid noise)
              AND a.city < 'M'    -- to speed up test
              AND b.city < 'M'
        )
        ) ab
    GROUP BY 1, 2
    HAVING   COUNT(DISTINCT state) > 1
    ORDER BY COUNT(DISTINCT state) desc

INDEX(state, city)有助于提高性能。

结果：

+----------+------------+-----------------------+
| city_a   | city_b     | COUNT(DISTINCT state) |
+----------+------------+-----------------------+
| Franklin | Bedford    |                     4 |
| Lebanon  | Franklin   |                     4 |
| Franklin | Lebanon    |                     4 |
| Hudson   | Franklin   |                     4 |
| Columbia | Clinton    |                     4 |
| Clinton  | Columbia   |                     4 |
| Franklin | Hudson     |                     4 |
| Bedford  | Franklin   |                     4 |
| Lebanon  | Farmington |                     3 |
| Hanover  | Kingston   |                     3 |
...
(25.17 sec)

包含整个字母表可能需要 4 倍的时间。表中只有 4K 行，所以这不是一项快速的任务。

结果的“证明”： mysql> SELECT city, state FROM us WHERE city IN ('Franklin', 'Bedford');

+----------+-------+
| city     | state |
+----------+-------+
| Bedford  | IN    |
| Franklin | IN    |
| Bedford  | MA    |
| Franklin | MA    |
| Bedford  | NH    |
| Franklin | NH    |
| Bedford  | OH    |
| Franklin | OH    |
| Franklin | TN    |
| Bedford  | TX    |
| Franklin | WI    |
+----------+-------+
11 rows in set (0.00 sec)

成对交叉

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

成对交叉

4 个回答

相关问题