连接不同地理区域的数据库的最佳实践

Question

Cristian Lupascu

Asked: 2012-05-12 07:09:27 +0800 CST2012-05-12 07:09:27 +0800 CST 2012-05-12 07:09:27 +0800 CST

TSQL 性能 - 在最小值和最大值之间加入值

772

我有两个存储表：

IP 范围 - 国家/地区查找表
来自不同 IP 的请求列表

IP 存储为bigints 以提高查找性能。

这是表结构：

create table [dbo].[ip2country](
    [begin_ip] [varchar](15) NOT NULL,
    [end_ip] [varchar](15) NOT NULL,
    [begin_num] [bigint] NOT NULL,
    [end_num] [bigint] NOT NULL,
    [IDCountry] [int] NULL,
    constraint [PK_ip2country] PRIMARY KEY CLUSTERED 
    (
        [begin_num] ASC,
        [end_num] ASC
    )
)

create table Request(
    Id int identity primary key, 
    [Date] datetime, 
    IP bigint, 
    CategoryId int
)

我想获取每个国家/地区的请求细分，因此我执行以下查询：

select 
    ic.IDCountry,
    count(r.Id) as CountryCount
from Request r
left join ip2country ic 
  on r.IP between ic.begin_num and ic.end_num
where r.CategoryId = 1
group by ic.IDCountry

我在表中有很多记录：大约 200,000 inIP2Country和几百万 in Request，因此查询需要一段时间。

查看执行计划，最昂贵的部分是索引 PK_IP2Country 上的 Clustered Index Seek，执行多次（Request 中的行数）。

另外，我觉得有点奇怪的是left join ip2country ic on r.IP between ic.begin_num and ic.end_num零件（不知道是否有更好的方法来执行查找）。

SQLFiddle 中提供了表结构、一些示例数据和查询：http ://www.sqlfiddle.com/#!3/a463e/3 （不幸的是，我认为我不能插入很多记录来重现问题，但这希望给出一个想法）。

我（显然）不是 SQL 性能/优化方面的专家，所以我的问题是：是否有任何明显的方法可以改进我所缺少的这种结构/查询的性能？

3 个回答

Voted

JNK · Answer 1 · 2012-05-12T07:47:18+08:00

Best Answer

JNK

2012-05-12T07:47:18+08:002012-05-12T07:47:18+08:00

你需要一个额外的索引。在您的小提琴示例中，我添加了：

CREATE UNIQUE INDEX ix_IP ON Request(CategoryID, IP)

它涵盖了请求表并获取索引查找而不是聚集索引扫描。

看看如何改进它并告诉我。我猜这会很有帮助，因为我确定对该索引的扫描并不便宜。

3

Jon of All Trades · Answer 2 · 2012-05-12T13:55:55+08:00

Jon of All Trades

2012-05-12T13:55:55+08:002012-05-12T13:55:55+08:00

总是有蛮力的方法：你可以爆炸你的 IP 地图。针对现有地图加入数字表，为每个 IP 地址创建一条记录。根据您的 Fiddle 数据，这只有 267K 条记录，完全没有问题。

CREATE TABLE IPLookup
  (
  IP  BIGINT PRIMARY KEY,
  CountryID  INT
  )
INSERT INTO IPLookup (IP, CountryID)
  SELECT
    N.Number, Existing.IDCountry
  FROM
    ip2country AS Existing
    INNER JOIN Numbers AS N ON N.Number BETWEEN Existing.begin_num AND Existing.end_num

这将使搜索更简单，并有望更快。当然，这只有在您对进行相对较少的更新时才有意义ip2country。

我希望其他人有更好的解决方案！

2

Vince Pergolizzi · Answer 3 · 2012-05-12T15:12:57+08:00

Vince Pergolizzi

2012-05-12T15:12:57+08:002012-05-12T15:12:57+08:00

尝试这个：

SELECT ic.IDCountry,
        COUNT(r.Id) AS CountryCount
FROM Request r
INNER JOIN (SELECT begin_num+NUMS.N [IP], IDCountry 
            FROM ip2country
            CROSS JOIN (SELECT TOP(SELECT ABS(MAX(end_num-begin_num)) FROM ip2country) ROW_NUMBER() OVER(ORDER BY sc.name)-1 [N]
                        FROM sys.columns sc) NUMS
            WHERE begin_num+NUMS.N <= end_num) ic
ON r.IP = ic.IP
WHERE r.CategoryId = 1
GROUP BY ic.IDCountry

0

TSQL 性能 - 在最小值和最大值之间加入值

如何查看 Oracle 中的数据库列表？

mysql innodb_buffer_pool_size 应该有多大？

列出指定表的所有列

从 .frm 和 .ibd 文件恢复表？

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

如何选择每组的第一行？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

TSQL 性能 - 在最小值和最大值之间加入值

3 个回答

相关问题