AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / dba / 问题 / 77703
Accepted
elty123
elty123
Asked: 2014-09-26 19:13:49 +0800 CST2014-09-26 19:13:49 +0800 CST 2014-09-26 19:13:49 +0800 CST

高效传输大量(8400 万行)数据

  • 772

我有大约 8400 万行。其中所有这些都需要转移到同一台服务器上的单独数据库中,然后我删除以从源数据库中删除大约 6000 万行。

8400 万行都在同一个表中。仅该表就占了整个数据库的 90%。

所以...来源:8400 万行 -> 2400 万行目标:0 行 -> 8400 万行

源运行完全恢复模式,目标运行简单。

我想知道最有效的方法是什么?

计划A:

1) INSERT INTO 目标选择 * FROM 源

2) 截断源

3) INSERT INTO source SELECT * FROM destination WHERE keep_condition = 1

B计划:

1) 将源数据库的备份还原为目标数据库

2) 删除除目标数据库所需的表之外的所有表

3) 截断源

4) INSERT INTO source SELECT * FROM destination WHERE keep_condition = 1

计划C:

1) INSERT INTO 目标选择 * FROM 源

2) 删除源 WHERE keep_condition = 0

或者是其他东西?

谢谢

sql-server
  • 5 5 个回答
  • 53755 Views

5 个回答

  • Voted
  1. Best Answer
    Erik Darling
    2014-09-27T07:31:02+08:002014-09-27T07:31:02+08:00

    我要补充一点,无论您决定如何处理,您都需要批量处理这些事务。我最近对链接的文章非常幸运,我很欣赏它利用索引的方式,而不是我看到的大多数批处理解决方案。

    即使是最低限度的日志记录,这些也是大事务,您可能会花费大量时间处理异常日志增长的后果(VLF、截断、调整大小等)。

    谢谢

    • 11
  2. Daniel Hutmacher
    2014-09-26T23:26:20+08:002014-09-26T23:26:20+08:00

    “高效”可以应用于日志文件使用、I/O 性能、CPU 时间或执行时间。

    我会尝试实现最少记录的操作,从日志记录的角度来看这将是相当有效的。这应该可以为您节省一些执行时间作为奖励。如果您有 tempdb 空间,则以下内容可能对您有用。

    CREATE TABLE #temp;
    ALTER source -> BULK_LOGGED recovery model
    
    BEGIN TRANSACTION;
    
        INSERT INTO dest SELECT FROM source;
        INSERT INTO #temp SELECT FROM source WHERE keep_condition=1;
        TRUNCATE TABLE source;
        INSERT INTO source SELECT FROM #temp;
    
    COMMIT TRANSACTION;
    
    ALTER source -> FULL recovery model
    DROP TABLE #temp;
    

    要进行最少记录的操作,必须满足许多条件,包括当前没有运行备份、数据库设置为BULK_LOGGED恢复模式,并且根据您的索引,目标表可能必须为空。从 SQL Server 2005 到 2008,其中一些行为也发生了变化(改进)。

    再说一次,在不知道您的表和数据的细节的情况下,您的任何其他选项都可能表现得更好。尝试使用

    SET STATISTICS IO ON;
    SET STATISTICS TIME ON;
    

    ..看看哪个效果最好。

    编辑:执行批量记录操作时,如果您需要时间点还原功能并且您怀疑数据库中可能正在进行其他活动,请确保在操作之前和之后进行备份(完整或事务日志)在您的 ETL 作业运行的同时。

    不久前,我写了一篇关于最少记录操作的博客文章,其中有指向其他文章和文档的链接。

    • 3
  3. stacylaray
    2014-09-27T18:13:37+08:002014-09-27T18:13:37+08:00

    为什么不是 BCP?

    1. 备份源数据库
    2. 将 sourcedb 更改为批量记录
    3. 打开命令提示符

    4. bcp server.sourcedb.table out Filename.flt -T -c

    5. bcp "SELECT * FROM sourcedb.table WHERE keep_condition = 1" queryout Filename2.flt -T -c

    6. bcp Server.destinationdb.table in Filename.flt -T -c -b1000

    7. 检查数据

    8. 从 SSMS 截断 sourcedb 表
    9. bcp server.sourcedb.table in Filename2.flt -T -c -b1000
    10. 将 sourcedb 改回完整
    • 1
  4. wBob
    2014-09-27T22:27:41+08:002014-09-27T22:27:41+08:00

    不要认为您应该建议在没有完整数据库备份或 t-log 备份之前和之后的情况下更改恢复模式。BULK_LOGGED 恢复模型的特点之一是您将失去对包含大量记录操作的 t-log 进行时间点恢复的能力。经典场景:每晚完整备份,每小时 t-log 备份。您将恢复模式更改为批量记录并开始您的操作。出现问题并且事务回滚(或者您没有使用过)。但是,您不确定数据库中还发生了什么,因此您想恢复到一个已知的好点。

    什么时候可以恢复?不包含批量记录操作的最后一个每小时 t-log 备份,可能会丢失 n 分钟的事务。更改恢复模式之前的完整备份或 t-log 备份将创建一个回退点。您选择哪一个取决于您的 RTO。

    • 0
  5. Michael Green
    2014-09-29T03:19:58+08:002014-09-29T03:19:58+08:00

    从表中删除分区是从表中删除大块数据的一种非常快速且资源高效的方法。如果此表以支持您的源/目标拆分的方式进行分区,答案将是恢复副本,从目标中删除冗余表和冗余分区,并从源中删除互补分区。

    然而,启用分区的成本可能会使这成为一项总体上更昂贵的操作。

    • 0

相关问题

  • SQL Server - 使用聚集索引时如何存储数据页

  • 我需要为每种类型的查询使用单独的索引,还是一个多列索引可以工作?

  • 什么时候应该使用唯一约束而不是唯一索引?

  • 死锁的主要原因是什么,可以预防吗?

  • 如何确定是否需要或需要索引

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目

    • 12 个回答
  • Marko Smith

    如何让sqlplus的输出出现在一行中?

    • 3 个回答
  • Marko Smith

    选择具有最大日期或最晚日期的日期

    • 3 个回答
  • Marko Smith

    如何列出 PostgreSQL 中的所有模式?

    • 4 个回答
  • Marko Smith

    列出指定表的所有列

    • 5 个回答
  • Marko Smith

    如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

    • 4 个回答
  • Marko Smith

    你如何mysqldump特定的表?

    • 4 个回答
  • Marko Smith

    使用 psql 列出数据库权限

    • 10 个回答
  • Marko Smith

    如何从 PostgreSQL 中的选择查询中将值插入表中?

    • 4 个回答
  • Marko Smith

    如何使用 psql 列出所有数据库和表?

    • 7 个回答
  • Martin Hope
    Jin 连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane 如何列出 PostgreSQL 中的所有模式? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh 为什么事务日志不断增长或空间不足? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland 列出指定表的所有列 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney MySQL 能否合理地对数十亿行执行查询? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx 如何监控大型 .sql 文件的导入进度? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison 你如何mysqldump特定的表? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 对 SQL 查询进行计时? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas 如何从 PostgreSQL 中的选择查询中将值插入表中? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 列出所有数据库和表? 2011-02-18 00:45:49 +0800 CST

热门标签

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve