最新问题 - Page 110

Asked: 2023-11-08 03:56:00 +0800 CST

Spark-cassandra-connector 读取吞吐量不可预测

用户报告在spark-cassandra-connector中设置spark.cassandra.input.readsPerSec时，范围查询吞吐量远远高于预期。

工作依赖性。Java 驱动程序版本设置为 4.13.0。

    <dependency>
        <groupId>com.datastax.spark</groupId>
        <artifactId>spark-cassandra-connector_2.12</artifactId>
        <version>3.2.0</version>
        <exclusions>
            <exclusion>
                <groupId> com.datastax.oss</groupId>
                <artifactId>java-driver-core-shaded</artifactId>
            </exclusion>
        </exclusions>
    </dependency>

...

    <dependency>
        <groupId>com.datastax.oss</groupId>
        <artifactId>java-driver-core</artifactId>
        <version>4.13.0</version>
    </dependency>

该作业有两个步骤（都是 FTS）：

Dataset<Row> dataset = sparkSession.sqlContext().read()
.format("org.apache.spark.sql.cassandra")
.option("table", "inbox_user_msg_dummy")
.option("keyspace", "ssmp_inbox2").load();

-和-

Dataset<Row> olderDataset = sparkSession.sql("SELECT * FROM inbox_user_msg_dummy where app_uuid = 'cb663e07-7bcc-4039-ae97-8fb8e8a9ff77' AND " +
"create_hour < '" + minus180DaysInstant + "'");

作业配置：

SparkConf sparkConf = new SparkConf()
        .setMaster("local[*]") //uncomment while running in local
        .setAppName("inbox-gateway-spark-job")
       .set("spark.scheduler.mode", "FAIR")
        .set("spark.cassandra.connection.port", "9042")
        .set("keyspace", "ssmp_inbox2")
        .set("spark.cassandra.connection.host", "cass-556799284-1-1276056270.stg.ssmp-inbox2-stg.ms-df-cassandra.stg-az-southcentralus-6.prod.us.walmart.net,
        cass-556799284-2-1276056276.stg.ssmp-inbox2-stg.ms-df-cassandra.stg-az-southcentralus-6.prod.us.walmart.net,
        cass-556799284-3-1276056282.stg.ssmp-inbox2-stg.ms-df-cassandra.stg-az-southcentralus-6.prod.us.walmart.net")
        .set("spark.cassandra.auth.username", "ssmp-inbox-app-v2")
        .set("spark.cassandra.auth.password", "*")
        .set("spark.cassandra.input.consistency.level", "LOCAL_ONE")
        .set("spark.cassandra.concurrent.reads", "1")
        .set("spark.cassandra.input.readsPerSec", "10")
        .set("spark.cassandra.input.fetch.sizeInRows", "10")
        .set("spark.cassandra.input.split.sizeInMB", "10")
        .set("spark.cores.max", "20")
        .set("spark.executor.memory", "20G")
        .set("spark.yarn.executor.memoryOverhead", "12000")
        .set("spark.cassandra.read.timeoutMS", "200000")
        .set("spark.task.maxFailures", "10")
        .set("spark.cassandra.connection.localDC", "southcentral");

请注意，Spark 将实际核心限制为 16 个，因为工作线程有 8 个核心。执行人1人。

当作业运行时，可以观察到第一个 FTS 每秒约有 22k 范围查询，集群上的 CPU 几乎饱和，而对于第二个 FTS，表上每秒约有 725 个范围查询。

预期总共有 16 个 Spark 核心，范围查询吞吐量将限制为 160/s（spark.cassandra.input.readsPerSec * Spark 核心）。

这个推理正确吗？对于控制 Spark-cassandra-connector 的读取吞吐量有什么建议？

我知道我们之前已经有其他用户成功配置了此限制，但我们从未仔细研究过最终的吞吐量是多少。不过，这似乎确实是一个很大的差异，因为这两个步骤本质上运行相同的操作 - 全表扫描。连接器最终运行的查询是相同的。

架构：

CREATE TABLE ssmp_inbox2.inbox_user_msg_dummy (    
  user_id text,    
  create_hour timestamp,    
  app_uuid text,    
  message_id text,    
  app_name text,    
  create_ts bigint,    
  is_actiontaken boolean,    
  is_compensable boolean,    
  is_deleted boolean,    
  is_read boolean,    
  message_payload text,    
  mini_app_name text,    
  notification text,    
  PRIMARY KEY ((user_id, create_hour, app_uuid), message_id)    
) WITH CLUSTERING ORDER BY (message_id DESC)    
  AND additional_write_policy = '99p'    
  AND bloom_filter_fp_chance = 0.01    
  AND caching = {'keys': 'ALL', 'rows_per_partition': 'NONE'}    
  AND cdc = false    
  AND comment = ''    
  AND compaction = {'class': 'org.apache.cassandra.db.compaction.SizeTieredCompactionStrategy', 'max_threshold': '32', 'min_threshold': '4'}    
  AND compression = {'chunk_length_in_kb': '64', 'class': 'org.apache.cassandra.io.compress.LZ4Compressor'}    
  AND crc_check_chance = 1.0    
  AND default_time_to_live = 0    
  AND extensions = {}    
  AND gc_grace_seconds = 864000    
  AND max_index_interval = 2048    
  AND memtable_flush_period_in_ms = 0    
  AND min_index_interval = 128
  AND read_repair = 'BLOCKING'
  AND speculative_retry = '99p';

查询：

SELECT * FROM ssmp_inbox2.inbox_user_msg_dummy WHERE token(user_id, create_hour, app_uuid) >= token(G9e7Y4Y, 2023-08-10T04:17:27.234Z, cb663e07-7bcc-4039-ae97-8fb8e8a9ff77) AND token(user_id, create_hour, app_uuid) <= 9121832956220923771 LIMIT 10

FWIW，平均分区大小为 649 字节，最大为 2.7kb。

Andrey

Asked: 2023-11-08 02:37:31 +0800 CST

Cassandra dsbulk 加载带有空值的数据并没有实现它

我有一个包含 2 个字段的表：id (primary key) fld_1 text，例如1 'hello world'，我在目标表中有 1 行，并且我有包含 1 行的源 tsv 文件：1\t。加载到目标表后，我希望看到1 null，但数据没有改变，我仍然得到1 'hello world' 设置'dsbulk.schema.nullToUnset': 'false'帮助我，但在我看来，这不是最好的解决方案，是否有任何正确的方法来加载具有空值的数据或提供的解决方案可以吗？

Patrick

Asked: 2023-11-08 00:26:55 +0800 CST

Sql Server 开放事务

我收到通知，我管理的 SQL 实例的事务日志驱动器已满。我跳了起来，找到了哪个事务日志在增长，然后去查看事务日志增长的原因。查看 sys.databases，日志重用 desc 为 active_transaction。没什么大不了的，我想我可以看一下，找到针对数据库运行事务的会话，并找出后续步骤。这是一个开发数据库，所以我假设开发人员打开了一个事务，我只需要联系他们并让他们关闭事务即可。

现在来谈谈奇怪的事情。我使用 DBCC OPENTRAN 查找数据库中最旧的打开事务，输出中有两个奇怪的地方。

会话ID被列为53s，我从未见过带有字母的会话ID，
交易开始时间为2023年11月3日，但服务器于2023年11月6日重启。

我想我可以将数据库置于单用户模式并立即回滚，然后返回多用户模式，这将解决该问题。我现在暂时搁置了，因为我不明白发生了什么，也不明白事情是如何以这种方式结束的。

Labs

Asked: 2023-11-07 22:04:58 +0800 CST

如果读取在提交时返回不同的值，则回滚事务

我想要 Postgresql 中的事务有某种行为，但我不知道这是否可能。我将这种行为描述为“乐观读锁”，但这似乎不是正确的术语。

这是我想要的行为：

我的交易开始了。其事务隔离级别是“可重复读”或“可串行化”。
在事务中我读取了 A 行。
在事务中我做了更多的读取和写入，但我从不更新 A 行。
我尝试提交交易。

现在，如果 A 行在我的事务生命周期内被其他事务更改，我需要事务失败。如果 A 行没有改变，我希望事务能够提交。

有没有办法在 Postgresql 中做到这一点？

我的替代方法是使用事务中的一些随机值更新 A 行，以强制写入冲突。然而，这将意味着很多不必要的冲突，因为如果不强制冲突，A 行将很少被更新，但经常被读取。

zor

Asked: 2023-11-07 19:40:13 +0800 CST

为用户存储不同结构的文档时，最好的数据库设计是什么？

要求是：用户应该能够定义他们想要存储的文档的结构。

例如，用户可以决定存储具有以下结构的银行对账单：

发布日期（日期）
详情（文字）
借方（数字）
信用（数）
值_日期（日期）
参考文献（文字）

然后选择一个文件加载到数据库中。

另一个用户或同一用户还可以加载具有不同结构的不同文档。

如果我们知道可用文档的所有不同结构，我们可以在数据库中创建所有表，但系统必须使用户可以加载任何类型的文档，并定义其自己的结构。

如果可能的话，我正在寻找一种将文档中的所有行保存到单个表中的方法。或者，当用户定义要加载的新文档结构时，我应该动态创建一个新表吗？这是最好的方法吗？

Matthias L

Asked: 2023-11-07 15:05:31 +0800 CST

当“统计收集间隔”设置为 1 小时时，SQL Server 的查询存储报告如何显示分钟长度间隔的数据？

在“查询存储”下的数据库属性中，“统计信息收集间隔”设置为 1 小时。通过查询视图也证实了这一点query_store_runtime_stats_interval- 所有间隔恰好为 1 小时。但是，当查看“总体资源消耗”等报告时，可以在“聚合大小”下拉列表中选择“分钟”，它会显示看起来合理的数据。

我能够捕获“顶级资源消耗查询报告”中使用的查询，它看起来显示了所有计划，这些计划也在选定的 1 分钟间隔内执行，但统计信息似乎仍然指的是完整的收集间隔。所以我的猜测是不要相信任何小于收集间隔的间隔。我的说法是否正确，或者报告是否确实显示了可靠的数据？

SELECT TOP (@results_row_count)      
    p.query_id query_id
    , q.object_id object_id
    , ISNULL(OBJECT_NAME(q.object_id),'') object_name
    , qt.query_sql_text query_sql_text
    , ROUND(CONVERT(float, SUM(rs.avg_duration*rs.count_executions))*0.001,2) total_duration
    , SUM(rs.count_executions) count_executions
    , COUNT(distinct p.plan_id) num_plans 
FROM sys.query_store_runtime_stats rs      
JOIN sys.query_store_plan p ON p.plan_id = rs.plan_id      
JOIN sys.query_store_query q ON q.query_id = p.query_id      
JOIN sys.query_store_query_text qt ON q.query_text_id = qt.query_text_id  
WHERE NOT (rs.first_execution_time > @interval_end_time OR rs.last_execution_time < @interval_start_time)  
GROUP BY p.query_id, qt.query_sql_text, q.object_id  
HAVING COUNT(distinct p.plan_id) >= 1  
ORDER BY total_duration DESC

DBA Greg14

Asked: 2023-11-06 22:39:52 +0800 CST

与可用性组并行 SQL 版本升级的最佳实践

我们正在尝试对 2 节点（多子网、企业版）AG 从 sql 2016 到 2019 进行首次并行升级。我对如何最好地解决此问题有一些疑问：

我们是否使用sql2019创建一个全新的集群和AG并使用日志传送来填充并切换到新环境？
我们是否要添加 2 个新的 2019 节点（每个现有子网中 1 个），并将它们设置为现有 AG 中的辅助节点？我知道通常你不能在 AG 中混合版本，但是对于像这样的升级，我读到只要你不尝试故障恢复到旧版本节点，它就可以顺利完成。
#2 中如何处理 AG 监听器？我认为我们应该能够使用现有的侦听器，因为新节点与旧版本的 SQl 节点位于同一子网中？

当我们处理集群和 AG 时，我无法在网上找到任何分步指南

Googlebot

Asked: 2023-11-06 22:12:56 +0800 CST

将数百万个文件插入表中

我将数百万个 XML 文件（每个 1-100MB）归档到一个表中，其结构为

CREATE TABLE Data
(
    ID int(11) unsigned NOT NULL,
    XML longtext COMPRESSED,
    PRIMARY KEY(ID)
) ENGINE=Aria DEFAULT CHARSET=utf8 COLLATE utf8_general_ci ROW_FORMAT=DYNAMIC;

INSERT INTO Data (ID,XML) VALUES ($id,LOAD_FILE('file.xml'));

该过程很慢，大约每秒 2-5 次插入。整个数据库对于 SDD 驱动器来说太大了，我在单独的 HDD 上创建数据库，但我将文件批量移动到 SDD 驱动器以使读取速度更快。请注意，磁盘速度不是决定速率的步骤，因为 XML 数据会因压缩而大幅缩小。

我尝试InnoDB获得并发插入，但是InnoDB ibd的大小是ARIA/MyISAM的三倍，并且InnoDB在HDD上慢得多。

我尝试过ROCKSDB，但无法在单独的磁盘上创建它，因为所有表都有一个目录。另外，ROCKSDB 的内存管理对于这种情况来说非常糟糕（或者我找不到正确的配置）。

我没有尝试ARCHIVE引擎性能，因为它需要ID井然有序。

我当前的解决方案是同时 INSERT 到 SSD 上的临时 InnoDB 表，然后INSERT INTO SELECT从 InnoDB 表到 HDD 上的 ARIA 表。问题在于清空 InnoDB 和启动并发 INSERT 进程的完整性和延迟。

我很感激任何可能的解决方案。

J. Mini

Asked: 2023-11-06 21:52:48 +0800 CST

在堆上运行 INSERT INTO [...] WITH (TABLOCK) 时，与在 B 树上运行相比，是否有更强的最小日志记录保证？

该文档列出了具有最少日志记录的批量导入的以下要求

数据库的恢复模式设置为简单或批量日志。

目标表是空堆或非空堆。

复制时不使用目标表。

TABLOCK 提示是为目标表指定的。

（强调我的）。

请注意，上面都没有提到 B 树。尽管如此，我的经验和 Iztik Ben-Gann 的T-Sql 查询书都声称空的TABLOCKed B 树将获得批量插入。

INSERT INTO [...] WITH (TABLOCK)在堆上运行时是否比在 B 树上运行时有更强的最小日志记录保证？如果不是，那么我无法理解为什么文档似乎对 B 树行为保持沉默。

ThomasDB

Asked: 2023-11-06 21:00:16 +0800 CST

SQL Server 内存要求

目前，我遇到了 SaaS 应用程序的一些数据库性能问题。白天，RESOURCE_SEMAPHORE 等待统计数据会猛增 30 到 60 秒，持续 1 到 2 分钟。在此期间，我还从我们的服务器收到一封或多封严重性为 17 的警报邮件，其中包含警告“资源池‘内部’中没有足够的系统内存来运行此查询。”

我们已经解决了具有大量内存授予的效率最低的查询（1.5 到 2.5 GB 授予，但使用率仅为 5% 或更少）。为了精确定位这些查询，我们使用了 Brent Ozar 的 sp_BlitzCache。不幸的是，这些更改后仍然出现性能问题。

请注意，此时我们有一个代理作业每 5 分钟运行一次 DBCC FREEPROCCACHE。这样做会使问题更加分散。将此作业更改为每半小时运行一次似乎会使问题变得更糟。当然，运行此作业还有其他影响，例如更高的编译/秒和更高的 CPU 利用率，但目前这是一个“两全其美”的解决方案。

恐怕内存压力问题是由于服务器配置的 RAM 内存不足造成的？这个假设是正确的还是这些问题是由其他原因造成的？

服务器统计

SQL Server 2022 (16.0.4085.2)
6 个逻辑处理器（最大 DOP = 4）
16 GB 总 RAM，配置为 SQL Server 的最大服务器内存为 14 GB，操作系统的最大服务器内存为 2 GB
共有1381个数据库
数据库总大小：302GB

Spark-cassandra-connector 读取吞吐量不可预测

Cassandra dsbulk 加载带有空值的数据并没有实现它

Sql Server 开放事务

如果读取在提交时返回不同的值，则回滚事务

为用户存储不同结构的文档时，最好的数据库设计是什么？

当“统计收集间隔”设置为 1 小时时，SQL Server 的查询存储报告如何显示分钟长度间隔的数据？

与可用性组并行 SQL 版本升级的最佳实践

将数百万个文件插入表中

在堆上运行 INSERT INTO [...] WITH (TABLOCK) 时，与在 B 树上运行相比，是否有更强的最小日志记录保证？

SQL Server 内存要求

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

全部问题(dba)