最近我注意到我的 ETL 过程将数据加载到暂存区的部分有时需要更长的时间,有时更短。
通过以下查询(在集成服务目录数据库中执行),我比较了两个不同的运行并发现重新创建表语句花费的时间更长(有时也是加载部分,但我认为主要问题是这个) . 这是比较不同运行的查询:
select
es1.execution_path,
es1.execution_duration as es1dura,
es2.execution_duration as es2dura,
(es2.execution_duration * 1.0) / es1.execution_duration * 100
from
catalog.executable_statistics es1
join catalog.executable_statistics es2 on es1.execution_path = es2.execution_path
where es1.execution_id = 239
and es2.execution_id = 10290
and es1.execution_path like '%create table%'
order by
--(es2.execution_duration * 1.0) / es1.execution_duration * 100 desc
es1.execution_path
部分结果是这样的:
这对应于 ETL 的以下部分:
请不要介意屏幕截图中的额外绿线,这只是 Visual Studio 中的混乱格式。没有更多的任务并行运行,作业在午夜左右运行,没有其他作业同时在数据库上运行。
这些任务非常简单。例如,其中一项Recreate table
任务如下所示:
IF EXISTS (
SELECT * FROM sys.tables
WHERE name = 'admin_perso_abteilung'
)
DROP TABLE admin_perso_abteilung
GO
CREATE TABLE admin_perso_abteilung (
[id] int,
[perso_abteilung] nvarchar(50)
)
GO
总之,问题是,从查询结果来看,整个流程卡住了一段时间,才并行执行recreate table语句,请问是什么原因导致的呢?我可以进一步检查什么以缩小问题范围?
由于我更像是一名开发人员而不是管理员,所以我在这里有点迷路,请多多指导。谢谢。
您的 drop/create 语句有时可能会相互阻塞。如前所述,您可以改为截断表,但是一个相当简单的测试是按顺序运行删除/创建任务,然后并行加载数据。
如果您非常想知道可变时间背后的详细原因,请按照建议进行操作并运行跟踪或 XE 会话以捕获运行期间的锁定和阻塞。
(比评论长......所以发布作为答案)
DelayValidation
属性设置True
为数据流任务。ValidateExternalMetadata
为。False