AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / dba / 问题 / 340202
Accepted
Arokh
Arokh
Asked: 2024-06-13 18:32:19 +0800 CST2024-06-13 18:32:19 +0800 CST 2024-06-13 18:32:19 +0800 CST

SqlBulkCopy 的内存使用率较高

  • 772

我已经开始使用 QueryStore 来监控我的应用程序,我注意到的一件事是,对于我以为的简单操作,内存使用量却出乎意料地高:

在此处输入图片描述

这意味着每次执行该语句时都会使用近 600MB 的 RAM?
该时间范围内每次执行的 RowCount 都远小于 100。该语句本身每 5 秒运行一次。

该表已分区并基于列存储索引,没有其他索引或主键/标识,并且有大约 750k 行:

CREATE TABLE [DataLink].[LogEntry](
  [AppInstanceId] [bigint] NOT NULL,
  [LoggedOnUtc] [datetime2](7) NOT NULL,
  [CategoryName] [nvarchar](256) NOT NULL,
  [EventCode] [int] NOT NULL,
  [EventName] [nvarchar](256) NULL,
  [LogLevel] [int] NOT NULL,
  [ScopeJson] [nvarchar](max) NULL,
  [StateJson] [nvarchar](max) NULL,
  [ExceptionJson] [nvarchar](max) NULL,
  [Message] [nvarchar](max) NULL
) ON [PSCH_Logging_DataLink_LogEntry_Daily7Of9]([LoggedOnUtc])

CREATE CLUSTERED COLUMNSTORE INDEX [CIX_LogEntry] 
ON [DataLink].[LogEntry] WITH (DROP_EXISTING = OFF, COMPRESSION_DELAY = 0, DATA_COMPRESSION = COLUMNSTORE) 
ON [PSCH_Logging_DataLink_LogEntry_Daily7Of9]([LoggedOnUtc])

触发插入的代码:

using var conn = connInfo.Main.GetConnection(DatabaseLoginType.User);
await conn.OpenAsync(ct).CAf();
using var sqlBulkCopy = new SqlBulkCopy((SqlConnection)conn, SqlBulkCopyOptions.CheckConstraints | SqlBulkCopyOptions.FireTriggers, null);

foreach(var toWriteItemGroup in toWriteItems.GroupBy(x => x.SchemaName)) {
...

    dataReader.Init(toWriteItemGroup, tableInfo.ColumnMappings.Length);

    sqlBulkCopy.DestinationTableName = $"{schemaName}.LogEntry";
    sqlBulkCopy.ColumnMappings.Clear();
    for(int i = 0; i < tableInfo.ColumnMappings.Length; i++) sqlBulkCopy.ColumnMappings.Add(i, tableInfo.ColumnMappings[i]);
    await sqlBulkCopy.WriteToServerAsync(dataReader, ct).CAf();
...
}

知道为什么内存使用率这么高以及我该怎么做才能解决这个问题?

编辑4
我通过更改和手动编译 Microsoft.Data.SqlClient 进行了一些测试。我所做的更改包括将 ROWS_PER_BATCH 和/或 KILOBYTES_PER_BATCH 添加到“insert bulk”语句的 with 选项中。所有选项都没有改变使用的内存量,但前者改变了行数估计:https://www.brentozar.com/pastetheplan/ ?id=HkKjc9HIC 似乎无法针对低行数优化“insert bulk”。

编辑3
这是一个简短的示例,我可以通过它重现该问题。
它包含一个脚本“Script.sql”,需要先执行该脚本来设置表并添加一些数据。之后使用“dotnet run”运行该程序(或使用 IDE)。
由于我无法在此处上传文件,因此我已将其上传到 github gist:https://gist.github.com/DvdKhl/d042ed05e3237136265295cb39ecb4f4

该脚本将:

  • 创建一个视图,显示表的 PartitionInfo
  • 创建(或重新创建)表及其配置
  • 插入 700k 行(每个分区 100k)
  • 重建索引
  • 输出分区信息
  • 注释掉的是
    • 事件会话(扩展事件)捕获查询计划
    • 另一个插入语句
    • 清理

该计划将:

  • 在“localhost”上为数据库“main”打开一个连接
  • 创建一个虚拟数据读取器(更改计数以更改插入的行数)
  • 像上面一样设置 SqlBulkCopy
  • 调用 WriteToServerAsync 插入行

这导致以下查询计划:https://www.brentozar.com/pastetheplan/? id=B1v_8bGLC

编辑2
按照 Denis Rubashkin 的建议我设置了 BatchSize 和顺序提示:

sqlBulkCopy.BatchSize = toWriteItemGroup.Count();
sqlBulkCopy.ColumnOrderHints.Add("LoggedOnUtc", SortOrder.Ascending);

BatchSize 似乎没有改变任何东西(估计值保持不变)。
看起来 ROWS_PER_BATCH 未被使用,尽管在代码中设置了 sqlBulkCopy.BatchSize,这可能是主要问题。

添加 Order 提示后,查询不会显示在 QueryStore 中。
但是使用扩展事件获取查询计划会显示“过度授权”警告。所以我不确定这是否有帮助。

KILOBYTES_PER_BATCH 选项看起来很有趣,但我似乎无法在 C# 代码中设置它。

WithOrderHint / WithoutOrderHint(不同的表,但问题完全相同)

编辑:
查询计划:https://www.brentozar.com/pastetheplan/? id=SJGpBktH0

表属性 - 存储
在此处输入图片描述

分区的磁盘使用情况
在此处输入图片描述

sql-server
  • 3 3 个回答
  • 213 Views

3 个回答

  • Voted
  1. Best Answer
    Zikato
    2024-06-21T03:35:29+08:002024-06-21T03:35:29+08:00

    我做了一个测试

    我创建了三张表

    • 聚集列存储
    • 聚集索引
    • 堆

    并bcp在查看查询存储时针对其中 3 个运行了一个工具

    复制

    CREATE DATABASE BulkCopy
    GO
    USE BulkCopy
    go
    ALTER DATABASE [BulkCopy] SET QUERY_STORE CLEAR
    
    DROP TABLE IF EXISTS dbo.OrderItemCCX
    CREATE TABLE dbo.OrderItemCCX
    (
        Id int IDENTITY (1,1) NOT NULL
        , OrderId int NOT NULL
        , ProductName varchar(50) NOT NULL
        , Qty int NOT NULL
    
    )
    GO
        CREATE CLUSTERED COLUMNSTORE INDEX [CCX_OrderItemCCX]
    ON dbo.OrderItemCCX WITH (DROP_EXISTING = OFF, COMPRESSION_DELAY = 0, DATA_COMPRESSION = COLUMNSTORE) 
    GO
    
    DROP TABLE IF EXISTS dbo.OrderItemHeap
    go
    CREATE TABLE dbo.OrderItemHeap
    (
        Id int IDENTITY (1,1) NOT NULL
        , OrderId int NOT NULL
        , ProductName varchar(50) NOT NULL
        , Qty int NOT NULL
    
    )
    
    go
    DROP TABLE IF EXISTS dbo.OrderItemCX
    go
    CREATE TABLE dbo.OrderItemCX
    (
        Id int IDENTITY (1,1) NOT NULL
        , OrderId int NOT NULL
        , ProductName varchar(50) NOT NULL
        , Qty int NOT NULL
        , CONSTRAINT PK_OrderItem PRIMARY KEY CLUSTERED (Id)
    )
    GO
    

    我已将其作为 csv 文件存储在本地磁盘上D:\OrderItems.csv

    ,4,abcd,42
    ,4,asdasd,42
    ,5,asdasdasd,42
    ,5,dhdrh,42
    ,5,dasd,42
    ,6,fdhg,42
    ,4,abcd,42
    ,4,asdasd,42
    ,5,asdasdasd,42
    ,5,dhdrh,42
    ,5,dasd,42
    ,6,fdhg,42
    ,4,abcd,42
    ,4,asdasd,42
    ,5,asdasdasd,42
    ,5,dhdrh,42
    ,5,dasd,42
    ,6,fdhg,42
    ,4,abcd,42
    ,4,asdasd,42
    

    并使用 PowerShell 在 5 秒循环中运行 bcp(将目标表更改为上述三个表之一)

    while ($true) {
        # Run the bcp command
        & bcp dbo.OrderItemCCX in "D:\OrderItems.csv" -S localhost -d BulkCopy -T -c -t ','
        
        Start-Sleep -Seconds 5
    }
    

    后来我还添加了 LogEntry 表(尽管未分区),其中包含一些 chatGPT 生成的数据

    DROP TABLE IF EXISTS dbo.LogEntry
    
    CREATE TABLE dbo.LogEntry
    (
        AppInstanceId bigint        NOT NULL
      , LoggedOnUtc   datetime2(7)  NOT NULL
      , CategoryName  nvarchar(256) NOT NULL
      , EventCode     int           NOT NULL
      , EventName     nvarchar(256) NULL
      , LogLevel      int           NOT NULL
      , ScopeJson     nvarchar(MAX) NULL
      , StateJson     nvarchar(MAX) NULL
      , ExceptionJson nvarchar(MAX) NULL
      , Message       nvarchar(MAX) NULL
    )
    
    CREATE CLUSTERED COLUMNSTORE INDEX [CIX_LogEntry] 
    ON dbo.LogEntry WITH (DROP_EXISTING = OFF, COMPRESSION_DELAY = 0, DATA_COMPRESSION = COLUMNSTORE) 
    
    1,2024-06-01 12:00:00.0000000,Application,1001,Startup,1,scope-app-scope-app-scope-app-scope-app-scope-app-scope-app-scope-app-scope-app-scope-app,init-state-init-state-init-state-init-state-init-state-init-state-init-state-init-state-init-state-init,,Application started successfully.
    2,2024-06-01 12:05:00.0000000,Application,1002,Shutdown,1,scope-app-scope-app-scope-app-scope-app-scope-app-scope-app-scope-app-scope-app-scope-app,shutdown-state-shutdown-state-shutdown-state-shutdown-state-shutdown-state-shutdown-state-shutdown,,Application shutdown initiated.
    3,2024-06-01 12:10:00.0000000,Security,2001,Login,2,scope-user-scope-user-scope-user-scope-user-scope-user-scope-user-scope-user-scope-user-scope-user,login-state-login-state-login-state-login-state-login-state-login-state-login-state-login-state-login,,User login successful.
    4,2024-06-01 12:15:00.0000000,Security,2002,Logout,2,scope-user-scope-user-scope-user-scope-user-scope-user-scope-user-scope-user-scope-user-scope-user,logout-state-logout-state-logout-state-logout-state-logout-state-logout-state-logout-state-logout-state-logout,,User logout successful.
    5,2024-06-01 12:20:00.0000000,Database,3001,Connection,3,scope-db-scope-db-scope-db-scope-db-scope-db-scope-db-scope-db-scope-db-scope-db-scope-db,connected-state-connected-state-connected-state-connected-state-connected-state-connected-state-connected-state-connected,,Database connection established.
    6,2024-06-01 12:25:00.0000000,Database,3002,Disconnection,3,scope-db-scope-db-scope-db-scope-db-scope-db-scope-db-scope-db-scope-db-scope-db-scope-db,disconnected-state-disconnected-state-disconnected-state-disconnected-state-disconnected-state-disconnected-state-disconnected,,Database connection closed.
    7,2024-06-01 12:30:00.0000000,Error,4001,Exception,4,scope-app-scope-app-scope-app-scope-app-scope-app-scope-app-scope-app-scope-app-scope-app,error-state-error-state-error-state-error-state-error-state-error-state-error-state-error-state-error-state-error-state,error-NullReferenceException-error-NullReferenceException-error-NullReferenceException-error-NullReferenceException,An unexpected error occurred.
    8,2024-06-01 12:35:00.0000000,Performance,5001,HighCPU,2,scope-system-scope-system-scope-system-scope-system-scope-system-scope-system-scope-system-scope-system-scope-system,warning-state-warning-state-warning-state-warning-state-warning-state-warning-state-warning-state-warning-state-warning,,High CPU usage detected.
    9,2024-06-01 12:40:00.0000000,Performance,5002,HighMemory,2,scope-system-scope-system-scope-system-scope-system-scope-system-scope-system-scope-system-scope-system-scope-system,warning-state-warning-state-warning-state-warning-state-warning-state-warning-state-warning-state-warning-state-warning,,High memory usage detected.
    10,2024-06-01 12:45:00.0000000,Application,1003,Update,1,scope-app-scope-app-scope-app-scope-app-scope-app-scope-app-scope-app-scope-app-scope-app,update-state-update-state-update-state-update-state-update-state-update-state-update-state-update-state-update,,Application update completed.
    

    结果

    这些是来自查询存储的结果(不要介意每个开始时间的两行,那是因为时间段尚未关闭)

    SELECT 
        qsq.query_id
        , qsp.plan_id
        , LEFT(qsqt.query_sql_text, 30) AS QueryText
        , CONVERT(VARCHAR(8), qsrsi.start_time, 108) AS start_time
        , qsrs.count_executions
        , qsrs.avg_rowcount
        , qsrs.avg_query_max_used_memory   /* KiB */
        , qsrs.last_query_max_used_memory  /* KiB */
        , qsrs.min_query_max_used_memory   /* KiB */
        , qsrs.max_query_max_used_memory   /* KiB */
    FROM sys.query_store_query AS qsq
    JOIN sys.query_store_query_text AS qsqt
        ON qsqt.query_text_id = qsq.query_text_id
    JOIN sys.query_store_plan AS qsp
        ON qsp.query_id = qsq.query_id
    JOIN sys.query_store_runtime_stats AS qsrs
        ON qsrs.plan_id = qsp.plan_id
    JOIN sys.query_store_runtime_stats_interval AS qsrsi
        ON qsrsi.runtime_stats_interval_id = qsrs.runtime_stats_interval_id
    WHERE qsqt.query_sql_text LIKE 'insert bulk%'
    ORDER BY qsrsi.start_time, qsq.query_id
    

    在此处输入图片描述

    总结

    我们可以看到,只有批量插入到列存储中才会产生较大的内存使用量。LogEntry也具有比较大的使用量OrderItemCCX- 这可能基于数据大小或列存储段(更多列)。

    无论如何,每批插入 20 行对我来说并不是一项批量复制的工作。

    我建议通读列存储索引 - 数据加载指南,并可能使用暂存表方法。

    • 3
  2. Denis Rubashkin
    2024-06-18T16:31:53+08:002024-06-18T16:31:53+08:00

    在附加的查询计划中,我看到的 Sort 运算符是唯一需要内存的运算符。对我来说奇怪的是,计划中声明的内存使用量为零:

    <MemoryGrantInfo SerialRequiredMemory="0" SerialDesiredMemory="0" GrantedMemory="0" MaxUsedMemory="0" />
    

    也许服务器需要一些内存来处理来自您应用程序的二进制数据,或者这只是“插入批量”查询计划的一些功能。无论如何,我猜这么大的内存分配是因为远程扫描运算符中的错误估计(10000)。

    您可以尝试添加提示ROWS_PER_BATCH = rows_per_batch来改进估计,和/或添加提示ORDER LoggedOnUtc ASC以避免查询计划中的排序运算符。

    看看外部工具专用语法

    希望这可以帮助。

    • 1
  3. Paul White
    2024-06-18T17:38:24+08:002024-06-18T17:38:24+08:00

    批量插入针对批量插入进行了优化。对于聚集列存储目标,这尤其意味着内存授予的大小可以允许生成压缩行组,而压缩行组可能会占用大量内存。

    您可能只打算插入少量行,并且可以说服优化器生成针对少量行优化的计划,但批量插入内存授予仍然会很大,因为在运行时可能会遇到大量行。

    另一种看待这个问题的方式是,如果你只打算插入少量行,则不会使用批量插入。这是 SQL Server 做出的合理推断。

    解决方法

    尽管如此,SqlBulkCopy从代码中使用确实很方便。如果你想要保持现有安排基本完好,但又想实现涓流插入,一种解决方法是使用触发器。

    现在,您不能直接在聚集列存储表上创建触发器,但可以在聚集列存储表的视图上创建触发器。

    将触发器设为INSTEAD OF插入触发器使我们能够将批量插入转换为涓流插入。

    例子

    CREATE VIEW dbo.LogEntryInsertAdapter
    WITH SCHEMABINDING AS
    SELECT 
        AppInstanceId,
        LoggedOnUtc,
        CategoryName,
        EventCode,
        EventName,
        LogLevel,
        ScopeJson,
        StateJson,
        ExceptionJson,
        [Message] 
    FROM dbo.LogEntry;
    GO
    CREATE TRIGGER LogEntryInsertAdapter_IOI
    ON dbo.LogEntryInsertAdapter 
    INSTEAD OF INSERT
    AS
    SET NOCOUNT ON;
    INSERT dbo.LogEntry SELECT * FROM Inserted;
    GO
    

    唯一需要更改的代码是:

    sqlBulkCopy.DestinationTableName = $"dbo.LogEntryInsertAdapter";
    

    您的演示代码将导致插入时没有内存授予:

    查看插入

    严格来说,这是对隐藏临时表的插入。触发器执行的真正插入是:

    表格插入

    这也具有零内存授予。

    对于那些您拥有大量行并且想要执行批量插入的场合,请定位原始表名而不是视图(或省略SqlBulkCopyOptions.FireTriggers)。

    • 1

相关问题

  • SQL Server - 使用聚集索引时如何存储数据页

  • 我需要为每种类型的查询使用单独的索引,还是一个多列索引可以工作?

  • 什么时候应该使用唯一约束而不是唯一索引?

  • 死锁的主要原因是什么,可以预防吗?

  • 如何确定是否需要或需要索引

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目

    • 12 个回答
  • Marko Smith

    如何让sqlplus的输出出现在一行中?

    • 3 个回答
  • Marko Smith

    选择具有最大日期或最晚日期的日期

    • 3 个回答
  • Marko Smith

    如何列出 PostgreSQL 中的所有模式?

    • 4 个回答
  • Marko Smith

    列出指定表的所有列

    • 5 个回答
  • Marko Smith

    如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

    • 4 个回答
  • Marko Smith

    你如何mysqldump特定的表?

    • 4 个回答
  • Marko Smith

    使用 psql 列出数据库权限

    • 10 个回答
  • Marko Smith

    如何从 PostgreSQL 中的选择查询中将值插入表中?

    • 4 个回答
  • Marko Smith

    如何使用 psql 列出所有数据库和表?

    • 7 个回答
  • Martin Hope
    Jin 连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane 如何列出 PostgreSQL 中的所有模式? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh 为什么事务日志不断增长或空间不足? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland 列出指定表的所有列 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney MySQL 能否合理地对数十亿行执行查询? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx 如何监控大型 .sql 文件的导入进度? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison 你如何mysqldump特定的表? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 对 SQL 查询进行计时? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas 如何从 PostgreSQL 中的选择查询中将值插入表中? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 列出所有数据库和表? 2011-02-18 00:45:49 +0800 CST

热门标签

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve