RK Kuppala提出的问题 -dba

RK Kuppala

Asked: 2016-12-22 21:56:49 +0800 CST

Azure SQL 仓库 - 数据摄取 - 将巨大的固定宽度（带逗号）文件转换为分隔文件

5

我什至不确定我是否正确地提出了这个问题，但我会尝试 - 我有一堆从 Linux 系统上的 Oracle 导出生成的巨大文本文件。每个文件大小约为 30 GB，我有大约 50 个。

目标是将此数据导出到 Azure SQL 数据仓库。在这种情况下，考虑到数据的大小，BCP 不是正确的方法，所以我不得不使用 Polybase。

从 ASCII 转换为 UTF8 编码后，我在查询外部表时遇到了问题。Polybase 不能很好地处理固定宽度的文本文件，每行都有换行符。

文本文件如下所示：

101,102,103,104,105,106,107
108,108,109,110,111,112,113
114,115,116,117,118,119,120
121,122,123

--这里什么都没有，只有一个空行

201,202,203,204,205,206,207
208,209,210,211,212,213,214
215,216,217

Polybase 尝试处理从 101 到 107 的错误，并抱怨此文件中没有足够的列来处理。

这是我认为正在发生的事情：固定宽度和换行符使其将换行符视为行分隔符。

如何将此文件转换为如下所示：

101,102,103,104,105,106,107,108,108,109,110,111,112,113,114,115,116,117,118,119,120,121,122,123{CR}{LF}
201,202,203,204,205,206,207,208,209,210,211,212,213,214,215,216,217{CR}{LF}

编辑：这是来自文件的示例数据。我在 Windows VM 上的 git bash 中打开它。

这些文件应该有 167 列,作为列分隔符。问题是，由于每一行产生多行，因此很难从 Polybase 外部表中处理它们。

RK Kuppala

Asked: 2016-11-17 08:35:25 +0800 CST

计算有时间间隔的会话

0

如果我们在 SQL Server 中有一个包含以下数据的表：

ID      Log_Time
1110    2016-10-31 20:34:50.000
1110    2016-10-31 20:34:58.000
1110    2016-10-31 20:35:03.000
1110    2016-11-01 01:28:29.000
1110    2016-11-01 01:28:33.000
1110    2016-11-01 01:28:37.000
1110    2016-11-01 01:28:42.000
1110    2016-11-01 01:28:46.000
1110    2016-11-01 01:28:50.000
1110    2016-11-01 01:28:54.000
1110    2016-11-01 01:28:59.000
1110    2016-11-01 01:29:03.000

假设每个用户操作都会生成一个 log_time 条目。出于计费目的，业务会像这样计算会话数 - 从会话 1 开始，对于每个日志活动，如果时差超过一个小时，则将会话数增加 1。

这是一个具有不同用户 ID 的相当大的表。我已经尝试将游标组合用于循环不同的用户和 WHILE LOOPS 以通过逐行迭代会话计数来增加。它需要很长时间才能完成，当这个表变大时，这甚至可能不是正确的方法。必须有更好的方法来做到这一点。任何指针？

我需要的结果集是这样的：

ID     SessionCount
1110   28
1145   42
1116   38

RK Kuppala

Asked: 2016-05-23 10:02:05 +0800 CST

Azure 数据仓库 - 用户定义的函数问题

7

这里的任何人都幸运地在Azure 数据仓库数据库上创建和使用 UDF ？我正在将本地仓库从 SQL Server 2014 迁移到 Azure 数据仓库，但遇到了 UDF 问题。

CREATE FUNCTION dbo.fn_GetImpliedRate (@Multiple float, @term int)
RETURNS float
AS
BEGIN
    DECLARE @ImpInt float
    IF(@Term = 1)
        SET @ImpInt = (select [1] from  dbo.ImpliedRate where Multiple = @Multiple); 
    IF(@Term = 2)
        SET @ImpInt = (select [2] from  dbo.ImpliedRate where Multiple = @Multiple); 
    IF(@Term = 3)
        SET @ImpInt = (select [3] from  dbo.ImpliedRate where Multiple = @Multiple); 
    IF(@Term = 4)
        SET @ImpInt = (select [4] from  dbo.ImpliedRate where Multiple = @Multiple); 

RETURN @ImpInt

END;
GO

此 UDF 在 SQL Server 2014 上完美运行。当我在 Azure 数据仓库上创建它时，它会被创建，但当我查询它时它不起作用。它返回一个NULL. 我已经验证了目标表是否存在等明显的事情。全部检查。我查看了 Azure 数据仓库的CREATE FUNCTION文档，它有一个示例 UDF，可以转换int为decimal. 这在 Azure DW 上完美运行。当我编写一个具有的简单函数时select，它失败了。不幸的是，这里的 Azure 文档并没有真正的帮助，我想知道你们中是否有人遇到过这个问题。如果是，您是如何解决的？

我刚刚测试了另一个用例，它也不起作用：

CREATE function [dbo].[fn_GetNumberBusinessDays] 
(
    @StartDate datetime,
    @EndDate Datetime
)
returns int
as 
begin 

DECLARE @NDAYS INT = 0
SELECT @NDAYS = 
  ISNULL( (DATEDIFF(dd, @StartDate, @EndDate) + 1)
  -(DATEDIFF(wk, @StartDate, @EndDate) * 2)
  -(CASE WHEN DATENAME(dw, @StartDate) = 'Sunday' THEN 1 ELSE 0 END)
  -(CASE WHEN DATENAME(dw, @EndDate) = 'Saturday' THEN 1 ELSE 0 END) - 1 ,0) + 1


 SELECT @NDAYS = @NDAYS - COUNT(*)
 FROM dbo.FedHolidays
 WHERE DateOfHoliday BETWEEN @StartDate AND @EndDate


 RETURN @NDAYS
end
GO

RK Kuppala

Asked: 2014-05-06 21:37:14 +0800 CST

为什么我的计划指南没有被使用？

9

我们最近遇到了临界点问题，我们的一些报告查询过去在几秒钟内完成执行，现在需要超过 2 分钟，因为查询优化器只是忽略了搜索列上的非聚集索引。下面的示例查询：

select top 100 *
from   [dbo].[t_Call]
where  ID > 0 
  and  throwtime between '3/20/2014 7:00:00 AM' and '3/24/2014 6:59:59 AM'
order by id

该ID列是聚集索引并且Throwtime具有非聚集索引。在这种情况下，我们注意到使用排序throwtime而不是ID更改查询计划和非聚集索引。我们还计划归档一些旧数据（它目前有 2000 万行！！）。但是在应用程序中进行这些更改需要一些时间，我需要找到一种方法使报告运行得相当快，而不需要在应用程序级别进行更改（哦，这就是生活！）。

输入计划指南。我使用非聚集索引查询提示创建了以下计划指南，但由于某种原因，仍未使用非聚集索引。我错过了什么吗？

EXEC sp_create_plan_guide 
@name = N'[prod2reports_callthrowtime]', 
@stmt = N'select top 100 *
          from   [dbo] . [t_Call]
          where  ID > @0 and @1 < = ThrowTime and ThrowTime < = @2 order by ID',
@type = N'SQL', 
@module_or_batch = N'select top 100 *
                     from   [dbo] . [t_Call]
                     where  ID > @0 and @1 < = ThrowTime and ThrowTime < = @2 order by ID', 
@params = N'@0 int, @1 datetime, @2 datetime', 
@hints = N'OPTION (TABLE HINT( [dbo] . [t_Call],
                   INDEX(IDX_NC_t_call_ThrowtimeProblemCodes)))'
GO

RK Kuppala

Asked: 2013-04-04 23:11:50 +0800 CST

需要帮助将此游标转换为基于集合的操作

0

我有一个存储过程，它作为报告数据库每晚刷新的一部分运行，大约需要 2 小时才能完成。该对象B_RPT_RC_AUDIT_ASSIGNED_TO_TEMP_T2有 800 万行。您能否建议我如何将此游标转换为基于集合的方法以获得更好的性能？可以使用 CTE 吗？

ALTER PROCEDURE [dbo].[B_RPT_RC_AUDIT_ASSIGNED_TO_TEMP2_SP] AS      
SET NOCOUNT ON        
DECLARE @SEQ SMALLINT,      
@CASEID DECIMAL,       
@ASSIGNED  NCHAR(30),      
@AUDITSTAMP DATETIME,      
@AUDITOPRID NCHAR(60),      
@STATUS NCHAR(10),      
@LASTCASEID DECIMAL,       
@PROVGRPID NCHAR(20)      
SET @SEQ = 1      
SET @LASTCASEID = @CASEID      

DROP TABLE B_RPT_RC_AUDIT_ASSIGNED_TO_TEMP   

CREATE TABLE B_RPT_RC_AUDIT_ASSIGNED_TO_TEMP (      
  SEQ_NUM SMALLINT,       
  CASE_ID DECIMAL,       
  ASSIGNED_TO NCHAR(30),       
  AUDIT_STAMP DATETIME,       
  AUDIT_OPRID NCHAR(60),      
  RC_STATUS NCHAR(10),      
  PROVIDER_GRP_ID NCHAR(20) )      
DECLARE AUDIT CURSOR FOR        
   SELECT CASE_ID, ASSIGNED_TO, AUDIT_STAMP, AUDIT_OPRID, RC_STATUS, PROVIDER_GRP_ID      
   FROM B_RPT_RC_AUDIT_ASSIGNED_TO_TEMP_T2      

-- Open the cursor      
OPEN AUDIT      
FETCH NEXT      
   FROM AUDIT      
    INTO @CASEID, @ASSIGNED, @AUDITSTAMP, @AUDITOPRID, @STATUS, @PROVGRPID       
WHILE @@FETCH_STATUS = 0      

begin       
 INSERT INTO B_RPT_RC_AUDIT_ASSIGNED_TO_TEMP       
 SELECT @SEQ, @CASEID, @ASSIGNED, @AUDITSTAMP, @AUDITOPRID, @STATUS, @PROVGRPID      

SET @LASTCASEID = @CASEID      
FETCH NEXT      
   FROM AUDIT      
    INTO @CASEID, @ASSIGNED, @AUDITSTAMP, @AUDITOPRID, @STATUS, @PROVGRPID      

SET @SEQ = CASE WHEN @CASEID <> @LASTCASEID THEN 1 WHEN @CASEID = @LASTCASEID THEN @SEQ + 1 END      
end      
-- Close and deallocate the cursor      
CLOSE AUDIT      
DEALLOCATE AUDIT

RK Kuppala

Asked: 2012-05-22 07:08:28 +0800 CST

在服务器之间导出多个表

5

我们目前有一个 SSIS 包，每晚导出大约 70 个大表，并在目的地截断和加载。我们的表格不断变化，我们有时会添加一些表格并删除一些表格，相应地编辑 SSIS 包很累。

有没有办法让一个文本文件或一个包含表名列表的表，并有一个 SSIS 包来循环表并执行导出？这样，处理导出的表的动态列表就更容易了。

任何链接，指针表示赞赏。

RK Kuppala

Asked: 2012-03-15 07:34:32 +0800 CST

如何获取数据库中所有分区表的列表？

28

如何获取数据库中所有分区表的列表？

我应该查看哪些系统表/DMV？

RK Kuppala

Asked: 2012-02-23 06:06:12 +0800 CST

查询调优 - SQL Server

2

我们的一位开发人员正在尝试在开发服务器上运行以下查询，这涉及从链接服务器生产中提取数据。查询在停止前运行了 14 个多小时。

我查看了 SQL Sentry Plan Explorer 中的执行计划 - 请在下面找到执行计划。

如何调整此查询以获得更好的性能？查询中是否有任何明显的错误？是否有任何指针、博客文章可以帮助我改进此查询？

涉及的两台服务器都是SQL Server 2005

SELECT A.SETID
,A.CUST_ID
,A.CNTCT_SEQ_NUM
,A.NAME1
,A.TITLE
,C.DESCR
FROM PS_CUST_CONTACT A
,[linksrv].[prodDB].dbo.PS_BO_ROLE Z
,[linksrv].[prodDB].dbo.PS_RD_PERSON B
,[linksrv].[prodDB].dbo.PS_BO_ROLE_TYPE C
WHERE Z.BO_ID = B.BO_ID
AND Z.ROLE_TYPE_ID = C.ROLE_TYPE_ID
AND Z.ROLE_END_DT >= GETDATE()
AND A.EFFDT = (
    SELECT MAX(EFFDT)
    FROM PS_CUST_CONTACT CUST_CONTACT
    WHERE CUST_CONTACT.SETID = A.SETID
        AND CUST_CONTACT.CUST_ID = A.CUST_ID
        AND CUST_CONTACT.CNTCT_SEQ_NUM = A.CNTCT_SEQ_NUM
        AND CUST_CONTACT.EFFDT <= { FN CURDATE() }
    )
AND A.EFF_STATUS = 'A'
AND B.PERSON_ID IN (
    SELECT A1.PERSON_ID
    FROM PS_CONTACT A1
        ,PS_CONTACT_CUST B1
    WHERE A1.EFFDT = (
            SELECT MAX(A_ED.EFFDT)
            FROM PS_CONTACT A_ED
            WHERE A1.SETID = A_ED.SETID
                AND A1.CONTACT_ID = A_ED.CONTACT_ID
                AND A_ED.EFFDT <= SUBSTRING(CONVERT(CHAR, GETDATE(), 121), 1, 10)
            )
        AND A1.SETID = B1.SETID
        AND A1.CONTACT_ID = B1.CONTACT_ID
        AND B1.EFFDT = (
            SELECT MAX(B_ED.EFFDT)
            FROM PS_CONTACT_CUST B_ED
            WHERE B1.SETID = B_ED.SETID
                AND B1.CONTACT_ID = B_ED.CONTACT_ID
                AND B_ED.EFFDT <= A.EFFDT
            )
        AND A.CNTCT_SEQ_NUM = B1.CNTCT_SEQ_NUM
        AND A.SETID = B1.CUSTOMER_SETID
        AND A.CUST_ID = B1.CUST_ID
    )

在此处输入图像描述

RK Kuppala

Asked: 2012-02-21 05:38:17 +0800 CST

索引物理统计 DMV - 未找到对象 ID/表

2

我最近在我的笔记本电脑上安装了 SQL Server 2012 RC0，我正在尝试演示收缩数据库如何导致碎片化。我在标识列上创建了一个表，一个聚集索引并插入了一些记录，然后发出以下命令来检查碎片：

select avg_fragmentation_in_percent from sys.dm_db_index_physical_stats(DB_ID('databasename'), 
  OBJECT_ID('tablename'), 1, NULL, 'limited')

这是我收到的错误消息：

Could not find table or object ID 2139154666. Check system catalog.

我从 sysobjects 中执行了一个 select *，并且该对象存在于该 objectID 中。为什么 SQL Server 认为它不存在？我究竟做错了什么？

Azure SQL 仓库 - 数据摄取 - 将巨大的固定宽度（带逗号）文件转换为分隔文件

计算有时间间隔的会话

Azure 数据仓库 - 用户定义的函数问题

为什么我的计划指南没有被使用？

需要帮助将此游标转换为基于集合的操作

在服务器之间导出多个表

如何获取数据库中所有分区表的列表？

查询调优 - SQL Server

索引物理统计 DMV - 未找到对象 ID/表

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

RK Kuppala's questions