AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / dba / 问题 / 103961
Accepted
Andris Birkmanis
Andris Birkmanis
Asked: 2015-06-13 15:55:23 +0800 CST2015-06-13 15:55:23 +0800 CST 2015-06-13 15:55:23 +0800 CST

成对交叉

  • 772

我有一个包含两列的表,假设是 FirstName 和 LastName。我需要得到另一个表,对于第一个中的每一对 FirstName,它都包含一个共同的 LastName 的计数。

这在 SQL 中是否可行?

如果这会影响查询效率,那么姓氏的唯一性要比名字多得多。

一个玩具示例,输入:

FirstName, LastName
John, Smith
John, Doe
Jane, Doe

输出:

FirstName1, FirstName2, CommonLastNames
John, John, 2
John, Jane, 1
Jane, Jane, 1
Jane, John, 1

由于此关系是自反和对称的,因此如果结果只是其中一个三角形(例如,对角线上方的那个)就可以了。

vertica
  • 4 4 个回答
  • 866 Views

4 个回答

  • Voted
  1. Best Answer
    Michael Green
    2015-06-14T02:26:05+08:002015-06-14T02:26:05+08:00

    我打算使用 MS SQL Server 来执行此操作,因为我手头有一份副本。我相信大多数专业都会这样做。

    首先是一个带有数据的示例表。我使用一个表变量,但它对任何类型的表都是一样的。

    declare @t table (FirstName char(10), LastName char(10));
    
    insert @t(FirstName,LastName)
    values ('John','Smith'),('John','Doe'),('Jane','Doe');
    

    您可以通过自连接获得所有对:

    select
        a.FirstName, a.LastName, b.FirstName, b.LastName
    from @t as a
    cross apply @t as b;
    

    Using避免了为一个子句CROSS APPLY寻找一个连接条件而不得不跳来跳去。ON

    接下来你需要一些东西来计算。这就是该CASE语句的用武之地。 case 为每对名字返回一个整数值,这就是要计算的值。(如果我正确地阅读了您的问题,您希望 LastNames 匹配的位置,这就是我的比较。希望如果我错了,如何修改它是显而易见的。)

    select
        ...
        case
            when a.LastName = b.LastName then 1
            else 0
        end
    ...etc.
    

    添加一个SUM()和GROUP BY你得到你的答案:

    select
        a.FirstName,
        b.FirstName,
        sum(
        case
            when a.LastName = b.LastName then 1
            else 0
        end
        ) as CommonLastNames
    from @t as a
    cross apply @t as b
    group by a.FirstName, b.FirstName;
    
    • 4
  2. Andris Birkmanis
    2015-06-15T21:02:29+08:002015-06-15T21:02:29+08:00

    我不得不承认我的问题有点缺陷。我真正需要的不是“对于第一个名字中的每一对名字都包含一些共同的姓氏”。事实上,我不关心计数为零的对。

    纠正问题后,解决方案会变得更快。

    鉴于输入:

    create local temp table t (FirstName char(10), LastName char(10)) ON COMMIT PRESERVE ROWS;
    insert into t(FirstName,LastName) values ('John','Smith');
    insert into t(FirstName,LastName) values ('John','Doe');
    insert into t(FirstName,LastName) values ('Jane','Doe');
    

    对于原始问题,解决方案是 O(N^2) (因为问题坚持“每一对”):

    select a.FirstName, b.FirstName, 
      sum(case when a.LastName = b.LastName then 1 else 0 end) CommonNames 
      from t a, t b group by 1, 2;
    

    如果可以跳过零计数,那么 LastName 上的自连接工作得更快(假设数据足够稀疏):

    select a.FirstName, b.FirstName,
      count(*) CommonNames from t a
      join t b using (LastName) group by 1, 2;
    

    我仍然想知道我是如何错过这个微不足道的解决方案的。

    • 2
  3. Rick James
    2015-06-15T12:29:15+08:002015-06-15T12:29:15+08:00

    呸!这是一个更好的方法:

    SELECT city_a, city_b, COUNT(*)
        FROM (
            SELECT a.city city_a,
                   a.state,
                   b.city city_b
            FROM       us a
            CROSS JOIN us b
            WHERE a.state = b.state
              AND a.city < b.city
             ) x
        GROUP BY city_a, city_b
        ORDER BY 3 DESC;
    

    输出:

    +-----------+-------------+----------+
    | city_a    | city_b      | COUNT(*) |
    +-----------+-------------+----------+
    | Lebanon   | Springfield |        5 |
    | Bedford   | Franklin    |        4 |  -- as shown in previous 'answer'
    | Franklin  | Lebanon     |        4 |
    | Franklin  | Hudson      |        4 |
    | Franklin  | Salem       |        4 |
    | Hudson    | Salem       |        4 |
    | Salem     | Springfield |        4 |
    | Clinton   | Columbia    |        4 |
    | Auburn    | Fairfield   |        3 |
    | Auburn    | Madison     |        3 |
    ...
    (2.63 sec) -- for all 4175 cities in `us`.
    

    第一项的健全性检查:

    mysql> SELECT city, state FROM us WHERE city IN ('Lebanon', 'Springfield');
    +-------------+-------+
    | city        | state |
    +-------------+-------+
    | Springfield | FL    |
    | Springfield | IL    |
    | Lebanon     | IN    |
    | Springfield | MA    |
    | Lebanon     | ME    |
    | Lebanon     | MO    |
    | Springfield | MO    |
    | Lebanon     | NH    |
    | Springfield | NJ    |
    | Lebanon     | OH    |
    | Springfield | OH    |
    | Lebanon     | OR    |
    | Springfield | OR    |
    | Lebanon     | PA    |
    | Springfield | PA    |
    | Lebanon     | TN    |
    | Springfield | TN    |
    | Springfield | VA    |
    | Springfield | VT    |
    +-------------+-------+
    19 rows in set (0.00 sec)
    

    主要的 Handler% STATUS 值表明它做了很多工作,但不完全是 O(N*N)(可能是因为 CROSS JOIN 一次只有一个状态):

    | Handler_read_key           | 4176   |
    | Handler_read_next          | 667294 |
    | Handler_read_rnd           | 1742   |
    | Handler_read_rnd_next      | 701964 |
    | Handler_update             | 1731   |
    | Handler_write              | 703693 |
    

    外推到数百万行——这可能需要几天时间。

    • 1
  4. Rick James
    2015-06-15T07:50:22+08:002015-06-15T07:50:22+08:00

    这是一个有趣的挑战。使用美国城市列表,我想出了这个解决方案(在 MySQL 中):

    SELECT  city_a, city_b,
            COUNT(DISTINCT state)
        FROM (
            ( SELECT a.city city_a,
                     b.city city_b,
                     a.state            -- This line differs
                FROM       us a
                CROSS JOIN us b
                WHERE a.state = b.state
                  AND a.city != b.city   -- Added (to avoid noise)
                  AND a.city < 'M'    -- to speed up test
                  AND b.city < 'M'
            )
            UNION ALL
            ( SELECT a.city city_a,
                     b.city city_b,
                     b.state            -- This line differs
                FROM       us a
                CROSS JOIN us b
                WHERE a.state = b.state
                  AND a.city != b.city   -- Added (to avoid noise)
                  AND a.city < 'M'    -- to speed up test
                  AND b.city < 'M'
            )
            ) ab
        GROUP BY 1, 2
        HAVING   COUNT(DISTINCT state) > 1
        ORDER BY COUNT(DISTINCT state) desc
    

    INDEX(state, city)有助于提高性能。

    结果:

    +----------+------------+-----------------------+
    | city_a   | city_b     | COUNT(DISTINCT state) |
    +----------+------------+-----------------------+
    | Franklin | Bedford    |                     4 |
    | Lebanon  | Franklin   |                     4 |
    | Franklin | Lebanon    |                     4 |
    | Hudson   | Franklin   |                     4 |
    | Columbia | Clinton    |                     4 |
    | Clinton  | Columbia   |                     4 |
    | Franklin | Hudson     |                     4 |
    | Bedford  | Franklin   |                     4 |
    | Lebanon  | Farmington |                     3 |
    | Hanover  | Kingston   |                     3 |
    ...
    (25.17 sec)
    

    包含整个字母表可能需要 4 倍的时间。表中只有 4K 行,所以这不是一项快速的任务。

    结果的“证明”: mysql> SELECT city, state FROM us WHERE city IN ('Franklin', 'Bedford');

    +----------+-------+
    | city     | state |
    +----------+-------+
    | Bedford  | IN    |
    | Franklin | IN    |
    | Bedford  | MA    |
    | Franklin | MA    |
    | Bedford  | NH    |
    | Franklin | NH    |
    | Bedford  | OH    |
    | Franklin | OH    |
    | Franklin | TN    |
    | Bedford  | TX    |
    | Franklin | WI    |
    +----------+-------+
    11 rows in set (0.00 sec)
    
    • -1

相关问题

  • 在 Vertica 中哪里可以找到角色有权访问的表?

  • 如何获取 Vertica 数据库的大小?

  • 创建到 vertica 的链接服务器

  • HP Vertica 是否在 Windows 上运行,是否与我们现有的 Oracle SQL 兼容?

  • 如何从 C 将数据加载到 Vertica?

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目

    • 12 个回答
  • Marko Smith

    如何让sqlplus的输出出现在一行中?

    • 3 个回答
  • Marko Smith

    选择具有最大日期或最晚日期的日期

    • 3 个回答
  • Marko Smith

    如何列出 PostgreSQL 中的所有模式?

    • 4 个回答
  • Marko Smith

    列出指定表的所有列

    • 5 个回答
  • Marko Smith

    如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

    • 4 个回答
  • Marko Smith

    你如何mysqldump特定的表?

    • 4 个回答
  • Marko Smith

    使用 psql 列出数据库权限

    • 10 个回答
  • Marko Smith

    如何从 PostgreSQL 中的选择查询中将值插入表中?

    • 4 个回答
  • Marko Smith

    如何使用 psql 列出所有数据库和表?

    • 7 个回答
  • Martin Hope
    Jin 连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane 如何列出 PostgreSQL 中的所有模式? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh 为什么事务日志不断增长或空间不足? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland 列出指定表的所有列 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney MySQL 能否合理地对数十亿行执行查询? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx 如何监控大型 .sql 文件的导入进度? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison 你如何mysqldump特定的表? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 对 SQL 查询进行计时? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas 如何从 PostgreSQL 中的选择查询中将值插入表中? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 列出所有数据库和表? 2011-02-18 00:45:49 +0800 CST

热门标签

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve