更新除某些列上具有相同值的行之外的所有行

Question

Landon Statis

Asked: 2024-08-27 23:27:36 +0800 CST2024-08-27 23:27:36 +0800 CST 2024-08-27 23:27:36 +0800 CST

提取第 N 次出现后的文本

772

我有几个这样的字符串：

1:723:NVDA:NSDQ::Z4189274321:Snapshot Report:10:COMPUTER & TECHNOLOGY:241:Semiconductor

我需要返回第二个冒号 ( :) 之后的所有内容。因此，从上面的字符串中我需要：

NVDA:NSDQ::Z4189274321:Snapshot Report:10:COMPUTER & TECHNOLOGY:241:Semiconductor

看到了很多例子，但没有一个真正适用于这项任务。

4 个回答

Voted

Adrian Klaver · Answer 1 · 2024-08-27T23:41:48+08:00

select array_to_string((string_to_array('1:723:NVDA:NSDQ::Z4189274321:Snapshot Report:10:COMPUTER & TECHNOLOGY:241:Semiconductor', ':'))[3:], ':');

NVDA:NSDQ::Z4189274321:Snapshot Report:10:COMPUTER & TECHNOLOGY:241:Semiconductor

这string_to_array从这里使用：

https://www.postgresql.org/docs/current/functions-string.html

string_to_array ( 字符串文本，分隔符文本 [, 空字符串文本 ] ) → text[]

在分隔符出现的位置拆分字符串，并将结果字段形成文本数组。如果分隔符为 NULL，则字符串中的每个字符将成为数组中的单独元素。如果分隔符为空字符串，则该字符串将被视为单个字段。如果提供了 null_string 且不为 NULL，则与该字符串匹配的字段将替换为 NULL。另请参阅 array_to_string。

string_to_array('xx~~yy~~zz', '~~', 'yy') → {xx,NULL,zz}

这会将字符串分解成其组成部分，并将它们组成一个数组。[3:]从数组中选择第三个到最后一个元素。

然后从这里：

https://www.postgresql.org/docs/current/functions-array.html

array_to_string ( 数组 anyarray，分隔符文本 [, 空字符串文本 ] ) → 文本

将每个数组元素转换为其文本表示形式，并连接由分隔符字符串分隔的元素。如果给出了 null_string 且不为 NULL，则 NULL 数组条目由该字符串表示；否则，它们将被省略。另请参阅 string_to_array。

array_to_string(ARRAY[1, 2, 3, NULL, 5], ',', ' ') → 1,2,3, ,5

这通过将数组元素与分隔符连接起来来重新构成字符串。

Erwin Brandstetter · Answer 2 · 2024-08-28T02:18:58+08:00

最短

substring()使用正则表达式：

SELECT substring(string, '^.+?:.+?:(.*$)');

正则表达式解释：

^... 锚点到字符串的开头（可选）
.... 任何字符
+?... 1 次或多次，非贪婪
:... 文字字符
（2 次）
(.*$)... 任何字符 0 次或多次，贪婪；在捕获括号中

test=> SELECT substring('1:723:NVDA:NSDQ::Z4189274321:Snapshot Report:10:COMPUTER & TECHNOLOGY:241:Semiconductor', '^.+?:.+?:(.*$)');
                                     substring                                     
-----------------------------------------------------------------------------------
 NVDA:NSDQ::Z4189274321:Snapshot Report:10:COMPUTER & TECHNOLOGY:241:Semiconductor
(1 row)

最快的

如果性能很重要...

上面的代码简单而简短，因此性能不错。但正则表达式很昂贵。即使像Adrian演示的那样转换为数组并返回（成本高昂），通常也更快。

这比迄今为止建议的任何方法都要快几倍：

SELECT substring(string, length(split_part(string, ':', 1))
                       + length(split_part(string, ':', 2))
                       + 3);

Frank Heikens · Answer 3 · 2024-08-27T23:42:04+08:00

Frank Heikens

2024-08-27T23:42:04+08:002024-08-27T23:42:04+08:00

这个通过分割内容返回一个数组：

SELECT (regexp_split_to_array('1:723:NVDA:NSDQ::Z4189274321:Snapshot Report:10:COMPUTER & TECHNOLOGY:241:Semiconductor',':'))[3:];

如果您需要一个字符串：

SELECT array_to_string((regexp_split_to_array('1:723:NVDA:NSDQ::Z4189274321:Snapshot Report:10:COMPUTER & TECHNOLOGY:241:Semiconductor',':'))[3:], ':');

这个使用正则表达式来分割内容并返回一个数组，但只有一个元素，并且很容易转换为单个字符串：

SELECT (regexp_matches('1:723:NVDA:NSDQ::Z4189274321:Snapshot Report:10:COMPUTER & TECHNOLOGY:241:Semiconductor', '^[^:]*:[^:]*:(.*)', 'g'))[1];

0

JohnH · Answer 4 · 2024-08-28T02:34:01+08:00

下面演示了使用NULLIF和REGEXP_REPLACE正则表达式^(([^:]*:){2}(.*))|(.*)来提取第二个之后的字符串部分:，或者NULL如果第二个之后没有字符:：

WITH
  test_cases (id, test_value, expected_result) AS (
    VALUES
      (1, NULL, NULL),
      (2, '', NULL),
      (3, '1:', NULL),
      (4, '1:2:', NULL),
      (5, '1:2: ', ' '),
      (6,
       '1:723:NVDA:NSDQ::Z4189274321:Snapshot Report:10:COMPUTER & TECHNOLOGY:241:Semiconductor',
        'NVDA:NSDQ::Z4189274321:Snapshot Report:10:COMPUTER & TECHNOLOGY:241:Semiconductor'
      )
  ),
  runs AS (
    SELECT
      tc.id,
      tc.test_value,
      tc.expected_result,
      NULLIF(
        REGEXP_REPLACE(tc.test_value, '^(([^:]*:){2}(.*))|(.*)', '\3'),
        ''
      ) AS actual_result
    FROM
      test_cases tc
  )
SELECT
  runs.id,
  runs.expected_result IS NOT DISTINCT FROM runs.actual_result AS passed,
  runs.actual_result
FROM
  runs
ORDER BY
  runs.id;

以下脚本测量与生成测试字符串（测试表达式）相关的开销s.string||gs.n::TEXT以及返回第二个之后出现的字符串部分的四个表达式中的每一个表达式的执行时间:：

DROP TABLE IF EXISTS test_runs;

CREATE TEMPORARY TABLE test_runs (
  id INTEGER GENERATED ALWAYS AS IDENTITY PRIMARY KEY,
  test_case INTEGER,
  test_expression TEXT,
  execution_time_ms NUMERIC
);

DO language plpgsql $BLOCK$
DECLARE
  number_of_iterations CONSTANT INTEGER := 100;
  number_of_rows CONSTANT INTEGER := 10000;
  test_expressions CONSTANT TEXT[] := ARRAY[
    $$s.string||gs.n::TEXT$$,
    $$SUBSTRING(s.string||gs.n::TEXT, '^.+?:.+?:(.*$)')$$,
    $$ARRAY_TO_STRING((STRING_TO_ARRAY(s.string||gs.n::TEXT, ':'))[3:], ':')$$,
    $$ARRAY_TO_STRING((REGEXP_SPLIT_TO_ARRAY(s.string||gs.n::TEXT, ':'))[3:], ':')$$,
    $$REGEXP_REPLACE(s.string||gs.n::TEXT, '^(([^:]*:){2}(.*))|(.*)', '\3')$$
  ];
  iteration INTEGER;
  results JSON;
  test_case INTEGER;
  test_run INTEGER := 0;
BEGIN
  FOR iteration IN 1 .. number_of_iterations LOOP
    FOR test_case IN 1 .. CARDINALITY(test_expressions) LOOP
      EXECUTE
        FORMAT($$
          EXPLAIN (ANALYZE, FORMAT JSON)
          SELECT %1$s
            FROM
              (VALUES ('1:723:NVDA:NSDQ::Z4189274321:Snapshot Report:10:COMPUTER & TECHNOLOGY:241:Semiconductor')) s(string)
              CROSS JOIN GENERATE_SERIES(1, $2) gs(n);$$,
          test_expressions[test_case])
        INTO results
        USING test_case, number_of_rows;
      INSERT INTO test_runs(test_case, test_expression, execution_time_ms)
      VALUES (test_case, test_expressions[test_case], (results -> 0 ->> 'Execution Time')::NUMERIC);
    END LOOP;
  END LOOP;
END;
$BLOCK$;

SELECT AVG(execution_time_ms)::NUMERIC(18,3) AS mean_execution_time_ms, test_expression
  FROM test_runs
  GROUP BY test_case, test_expression
  ORDER BY mean_execution_time_ms, test_case;

平均执行时间毫秒	测试表达式
3.486	s.字符串\|\|gs.n::TEXT
24.911	ARRAY_TO_STRING((STRING_TO_ARRAY(s.string\|\|gs.n::TEXT, ':'))[3:], ':')
41.494	SUBSTRING(s.string\|\|gs.n::TEXT，'^.+?:.+?:(.*$)')
61.743	REGEXP_REPLACE(s.string\|\|gs.n::TEXT, '^(([^:] :){2}(. ))\|(.*)', '\3')
87.302	ARRAY_TO_STRING((REGEXP_SPLIT_TO_ARRAY(s.string\|\|gs.n::TEXT, ':'))[3:], ':')

提取第 N 次出现后的文本

最短

最快的

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

提取第 N 次出现后的文本

4 个回答

最短

最快的

相关问题