SQL Server - 使用聚集索引时如何存储数据页

Question

Alexei

Asked: 2016-04-21 07:00:16 +0800 CST2016-04-21 07:00:16 +0800 CST 2016-04-21 07:00:16 +0800 CST

SQL Server 中的数据库日志记录优化和维护

772

我正在处理的 Web 应用程序之一使用 NLog 在数据库中记录调试和错误上下文信息。基本上，它使用以下模式执行中等数量的插入（我很欣赏每天数万次）：

<commandText>
  insert into dbo.nlog
  (log_date, log_level_id, log_level, logger, log_message, machine_name, log_user_name, call_site, thread, exception, stack_trace, full_exception_info)
  values(@timestamp, dbo.func_get_nlog_level_id(@level), @level, @logger, @message, @machinename, @username, @call_site, @threadid, @log_exception, @stacktrace, @FullExceptionInfo);
</commandText>
<parameter name="@timestamp" layout="${longdate}"/>
<parameter name="@level" layout="${level}"/>
<parameter name="@logger" layout="${logger}"/>
<parameter name="@message" layout="${message}"/>
<parameter name="@machinename" layout="${machinename}"/>
<parameter name="@username" layout="${windows-identity:domain=true}"/>
<parameter name="@call_site" layout="${callsite:filename=true}"/>
<parameter name="@threadid" layout="${threadid}"/>
<parameter name="@log_exception" layout="${exception}"/>
<parameter name="@stacktrace" layout="${stacktrace}"/>
<parameter name="@FullExceptionInfo" layout="${gdc:FullExceptionInfo}"/>

为了尽量减少日志记录的影响，数据库查询是异步发出的（在不同的线程上）。但是，我必须小心不要用完线程池线程。

为了在查询日志时获得更好的性能，我为最常用的列放置了两个索引，log_data和log_user_name。但是，我知道这会对插入性能产生负面影响。entered_date上还有聚集索引，如下所示sp_help：

IX_nlog_entered_date clustered located on PRIMARY entered_date

Q1：有这些索引是可以的还是没有它们更好，并且在很少查询表时会受到惩罚？或者也许有更好的方法。

使用如下简单查询完成查询：

-- just see the latest logged activity
SELECT TOP 1000 *
FROM nlog 
ORDER BY nlog_id DESC

或者像这样：

SELECT TOP 200*
FROM nlog 
WHERE log_user_name = 'domain\username'
ORDER BY nlog_id DESC

显然，这可能会在执行时锁定表，从而延迟一些插入。我认为 usingWITH(NOLOCK)应该是一个不错的选择，但人们常常忘记它。

Q2：如何尽量减少阅读对桌子的影响？我正在考虑拒绝对表的读取访问，而是创建一个存储过程来执行读取NOLOCK，但这会导致更复杂。

一段时间后，应该删除旧记录。据我所知，从大表中删除许多行是一个繁重的查询。Web 应用程序有指定的时间段（晚上）执行维护工作，但我想改进这一步。那么，第三个问题：

Q3：如何将大删除的影响降到最低？. 我正在考虑表分区entered_date（默认为GETDATE()），但我不知道这是否是个好主意。

表和索引定义

CREATE TABLE [dbo].[nlog](
    [nlog_id] [int] IDENTITY(1,1) NOT NULL,
    [entered_date] [datetime2](7) NOT NULL CONSTRAINT [DF_nlog_log_time]  DEFAULT (getdate()),
    [log_app_name] [nvarchar](255) NULL,
    [log_date] [nvarchar](64) NULL,
    [log_level_id] [tinyint] NOT NULL,
    [log_level] [nvarchar](64) NULL,
    [logger] [nvarchar](1024) NULL,
    [log_message] [nvarchar](max) NULL,
    [machine_name] [nvarchar](255) NULL,
    [log_user_name] [nvarchar](255) NULL,
    [call_site] [nvarchar](4000) NULL,
    [thread] [nvarchar](255) NULL,
    [exception] [nvarchar](max) NULL,
    [stack_trace] [nvarchar](max) NULL,
    [full_exception_info] [nvarchar](max) NULL,
 CONSTRAINT [PK_nlog] PRIMARY KEY NONCLUSTERED 
(
    [nlog_id] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON, FILLFACTOR = 95) ON [PRIMARY]
) ON [PRIMARY] TEXTIMAGE_ON [PRIMARY]

GO

CREATE CLUSTERED INDEX [IX_nlog_entered_date] ON [dbo].[nlog]
(
    [entered_date] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, SORT_IN_TEMPDB = OFF, DROP_EXISTING = OFF, ONLINE = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON, FILLFACTOR = 95) ON [PRIMARY]
GO

2 个回答

Voted

Paul White · Answer 1 · 2016-04-26T03:41:00+08:00

索引

添加一个或多个非聚簇索引的决定是一种评估，只有您可以根据测试结果并考虑您当地的优先事项来准确做出。也就是说，从数据库的角度来看，添加少量窄非聚簇索引对性能的影响通常很小。

更一般地说，索引应该由优先级、设计选择和工作量驱动。您的架构似乎与 NLog 默认值不同，因为将nlog_id作为非聚集主键，聚集索引位于entered_date上。假设这是一个深思熟虑的决定，那么针对该表的大多数查询必须基于日期范围，而不是top (n) ... order by nlog_id问题中提供的示例。您的示例可能更喜欢entered_date上的聚簇主键和非聚簇索引。

以每天 50,000 行计算，该表每年仅增长约 1800 万行。这在事物的计划中是一个非常小的数字。该问题没有明确提及任何当前的性能问题，无论是读取还是写入。
阅读

临时查询访问难以管理。通过直接访问表，没有什么可以防止有人编写可能影响整个实例的灾难性查询（例如并行意外交叉连接）。

仅通过视图、存储过程和内联表值函数提供访问通常是一个更好的主意。如果日志表在维护窗口之外是仅追加的，那么在新的数据访问模块中（明确地）使用未提交读隔离级别可能是合适的。

或者，如果应用程序可以容忍读取提交隔离的默认锁定实现的更改，您可以考虑在 SQL Server 中启用称为读取提交快照隔离 (RCSI) 的行版本控制 (MVCC) 实现。这不是一个可以轻易做出的改变。
大量删除

根据问题中提供的信息，无法判断分区是否适合您。分区的主要好处是几乎可以即时删除或归档整个分区。实现这一点在维护方面涉及复杂性和成本，并且分区会对需要测试的现有查询执行计划产生复杂的影响。

如果删除/归档相对有规律，并且在维护窗口期间执行，那么简单的方法可能是最好的。删除总是可以以适当大小的批次执行，必要时在备份之间进行事务日志备份。
刀片

如果系统可以容忍日志数据出现在表中之前的小延迟，则插入可能应该是批处理的，也许使用 NLog 自己的缓冲功能。我不使用 NLog，但文档建议了几个您应该研究的缓冲选项。

考虑到当前的插入率，从数据库的角度来看，这可能没有必要。也就是说，在单个事务中插入（比方说）一百行比在一百个单独的事务中一次插入一行更有效。

Julian · Answer 2 · 2016-04-21T13:32:05+08:00

Julian

2016-04-21T13:32:05+08:002016-04-21T13:32:05+08:00

对表进行大量读取和写入可能很难保持性能。索引确实会损害插入性能，锁定也是要牢记的一个重要方面。

还有另一种方法可以解决这些问题——不要直接写入数据库。例如，将消息写入MSMQ并使用 Windows 服务将它们插入（成批）到数据库中。那么索引、锁定和删除就不再是问题了。

1

SQL Server 中的数据库日志记录优化和维护

表和索引定义

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

SQL Server 中的数据库日志记录优化和维护

表和索引定义

2 个回答

相关问题