AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / dba / 问题 / 332460
Accepted
Andy DB Analyst
Andy DB Analyst
Asked: 2023-10-24 16:38:09 +0800 CST2023-10-24 16:38:09 +0800 CST 2023-10-24 16:38:09 +0800 CST

ORACLE 收集统计数据后基数估计错误

  • 772

我们有一个按月分区的大表范围。增量统计已开启。在预定的统计数据收集之后,基数估计变得很奇怪,比如

select count(*) from my_table where date >= trunc(sysdate) - 30 and date < trunc(sysdate)

给出 1.3M 行,但估计为 20K。只有在手动重新收集统计数据后,估计才会变得准确。代码示例:

-- Scheduled
dbms_stats.gather_table_stats
(
    ownname=> 'ownname', 
    tabname=> 'tabname' , 
    estimate_percent=> DBMS_STATS.AUTO_SAMPLE_SIZE,  
    cascade=> DBMS_STATS.AUTO_CASCADE, 
    degree=> 4,  
    no_invalidate=> DBMS_STATS.AUTO_INVALIDATE, 
    granularity=> 'AUTO', 
    method_opt=> 'FOR ALL COLUMNS SIZE AUTO'
);

-- Manual
DBMS_STATS.GATHER_TABLE_STATS 
(
    ownname => '"ownname"',
    tabname => '"tabname"',
    partname => '"partname"',
    method_opt => 'FOR COLUMNS DATE SIZE 254',
    estimate_percent => 1
);

其他分区表都没问题。

该表与其他表之间的区别是(据我们所知):

  1. 该表中存在错误插入。大多数日期在 2014 年和 2023 年之间,但有一些行包含 1970 年和 2024 年(我们无法更改它)。还有 2045 的空分区。我们尝试重新创建它,但没有得到相同的行为。
  2. 我们搞乱了直方图,删除了一些自动创建的直方图,并手动创建了一些基于函数的有用的直方图。但在 USER_TAB_COL_STATISTICS 和 USER_TAB_HISTOGRAMS 中,存在 DATE 列的直方图。

什么会导致这种行为?我们该如何解决它?

oracle
  • 1 1 个回答
  • 30 Views

1 个回答

  • Voted
  1. Best Answer
    Paul W
    2023-10-25T09:33:31+08:002023-10-25T09:33:31+08:00

    这是分区表中升序日期的常见问题。第一件事是验证增量统计数据是否有效。

    SELECT notes
      FROM dba_tab_col_statistics
     WHERE table_name = 'MYTABLE'
    

    您应该在每一列中看到“增量”。如果不这样做,那么您需要让增量统计数据正常工作。要使增量统计数据发挥作用,您必须设置以下选项:

    GRANULARITY -> AUTO
    INCREMENTAL -> TRUE
    PUBLISH -> TRUE
    ESTIMATE_PERCENT -> DBMS_STATS.AUTO_SAMPLE_SIZE
    APPROXIMATE_NDV_ALGORITHM -> LIKE '%HYPERLOGLOG%'
    INCREMENTAL_LEVEL -> PARTITION
    

    然后,您必须使用这些设置收集统计数据一次,这最初将进行全局收集。首先删除表上的统计信息以从头开始可能是个好主意。然后,后续收集应该仅收集过时的分区并使用它来估计全局列最小/最大/不同值。

    另外,您不希望日期列上有直方图,除非您有一个过度代表的神奇值(例如 12/31/9999),或者单行具有可追溯到 1970 年或 1900 年的虚假日期或某个愚蠢的日期到目前为止,简单的最小/最大平均值确实会很差。直方图用于倾斜,而不是像大多数日期列那样用于均匀分布的值。我想我记得读过直方图会覆盖增量统计数据,因此这可能是从始终升序的日期列中删除它们的另一个原因。在我们的大数据仓库中,我们在日期列上没有任何直方图,尤其是那些分区键的直方图。我们只依赖增量,它通常效果很好。

    假设您的增量统计数据正在工作,接下来的事情是查看统计数据收集是否发生得太晚(错误的查询可能会在主要分区修改/加载之后很快执行,然后才有机会收集新数据的统计数据)。要检查这一点,请查看LAST_ANALYZED并与错误查询的开始时间和上次主要数据加载的时间进行交叉检查。

    您还可以仔细检查日期列的最大值是否大致正确。您必须根据其原始值对其进行解码。以下是一组可用于显示列的最小/最大值的函数:

    CREATE OR REPLACE FUNCTION CAST_RAW_TO_CHAR (bdr IN raw) 
      RETURN varchar2
      DETERMINISTIC 
    AS  
    BEGIN
      RETURN utl_raw.cast_to_varchar2(bdr);
    EXCEPTION 
      WHEN OTHERS THEN 
        RETURN NULL;
    END CAST_RAW_TO_CHAR;
    /
    CREATE OR REPLACE FUNCTION CAST_RAW_TO_NUMBER (bdr IN raw) 
      RETURN number
      DETERMINISTIC 
    AS  
    BEGIN
      RETURN utl_raw.cast_to_number(bdr);
    EXCEPTION 
      WHEN OTHERS THEN 
        RETURN NULL;
    END CAST_RAW_TO_NUMBER;
    /
    CREATE OR REPLACE FUNCTION CAST_RAW_TO_DATE (bdr IN raw) 
      RETURN date
      DETERMINISTIC 
    AS  
    BEGIN
      RETURN
         date'1-1-1'
         + NUMTOYMINTERVAL(
             100 * (to_number(substr(bdr,1,2), 'xx') - 100) + 
             to_number(substr(bdr,3,2), 'xx') - 101, 
           'year')
         + NUMTOYMINTERVAL(to_number(substr(bdr,5,2), 'xx')-1, 'month')
         + NUMTODSINTERVAL(to_number(substr(bdr,7,2), 'xx')-1, 'day')
         + NUMTODSINTERVAL(to_number(substr(bdr,9,2), 'xx') - 1, 'hour')   
         + NUMTODSINTERVAL(to_number(substr(bdr,11,2), 'xx') - 1, 'minute')   
         + NUMTODSINTERVAL(to_number(substr(bdr,13,2), 'xx') - 1, 'second');
    EXCEPTION 
      WHEN OTHERS THEN 
        RETURN NULL;
    END CAST_RAW_TO_DATE;
    /
    
    CREATE OR REPLACE FUNCTION CAST_RAW_TO_DISPLAY_STRING (bdr IN raw, data_type IN varchar2)
      RETURN varchar2
      DETERMINISTIC 
    AS
    BEGIN
      RETURN CASE WHEN (bdr IS NULL) THEN NULL
                  WHEN (data_type LIKE '%CHAR%') THEN cast_raw_to_char(bdr) 
                  WHEN (data_type = 'NUMBER') THEN TO_CHAR(cast_raw_to_number(bdr))
                  WHEN (data_type = 'DATE' OR data_type LIKE '%TIMESTAMP%') THEN TO_CHAR(cast_raw_to_date(bdr))
             END;
    END;
    /
    

    现在查询统计数据:

    SELECT /*+ NO_MERGE(cs) NO_MERGE(tc) */
           cs.owner,
           cs.table_name,
           cs.column_name,
           cs.num_distinct,
           tc.data_type,
           cast_raw_to_display_string(cs.low_value,tc.data_type) low_value_display,
           cast_raw_to_display_string(cs.high_value,tc.data_type) high_value_display,
           cs.density,
           cs.num_nulls,
           cs.num_buckets,
           cs.last_analyzed,
           cs.sample_size,
           cs.global_stats,
           cs.user_stats,
           cs.notes,
           cs.avg_col_len,
           cs.histogram,
           cs.scope
      FROM dba_tab_col_statistics cs,
           dba_tab_cols tc
     WHERE cs.table_name = 'MYTABLE'
       AND cs.owner = tc.owner
       AND cs.table_name = tc.table_name
       AND cs.column_name = tc.column_name
    

    当您的查询不好时(在收集统计信息之前)运行此命令,以查看最大值是否明显低于应有的值(以及可能晚几周或更长时间的日期)。这是统计数据未按时收集的另一个迹象。您可能需要在加载完成后调整统计信息收集窗口或将手动统计信息调用(不覆盖任何参数)添加到加载数据的代码中。

    CARDINALITY如果所有其他方法都失败了,并且您无法获得与您的应用程序模式相符的统计数据计时,那么您始终可以投入统计数据毛巾,并使用或提示来提示查询,告诉 Oracle 期望该表中有一百万行OPT_ESTIMATE:

    SELECT /*+ CARDINALITY(x,1000000) */ *
      FROM mytable x,
           someothertable y
     WHERE x.joinid = y.id
    
    SELECT /*+ OPT_ESTIMATE(TABLE x ROWS=1000000) */ *
      FROM mytable x,
           someothertable y
     WHERE x.joinid = y.id
    
    • 1

相关问题

  • Oracle 中的数据库备份 - 导出数据库还是使用其他工具?

  • ORDER BY 使用文本列的自定义优先级

  • 舒服的sqlplus界面?[关闭]

  • 如何在数据库中找到最新的 SQL 语句?

  • 如何使用正则表达式查询名称?

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目

    • 12 个回答
  • Marko Smith

    如何让sqlplus的输出出现在一行中?

    • 3 个回答
  • Marko Smith

    选择具有最大日期或最晚日期的日期

    • 3 个回答
  • Marko Smith

    如何列出 PostgreSQL 中的所有模式?

    • 4 个回答
  • Marko Smith

    列出指定表的所有列

    • 5 个回答
  • Marko Smith

    如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

    • 4 个回答
  • Marko Smith

    你如何mysqldump特定的表?

    • 4 个回答
  • Marko Smith

    使用 psql 列出数据库权限

    • 10 个回答
  • Marko Smith

    如何从 PostgreSQL 中的选择查询中将值插入表中?

    • 4 个回答
  • Marko Smith

    如何使用 psql 列出所有数据库和表?

    • 7 个回答
  • Martin Hope
    Jin 连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane 如何列出 PostgreSQL 中的所有模式? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh 为什么事务日志不断增长或空间不足? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland 列出指定表的所有列 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney MySQL 能否合理地对数十亿行执行查询? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx 如何监控大型 .sql 文件的导入进度? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison 你如何mysqldump特定的表? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 对 SQL 查询进行计时? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas 如何从 PostgreSQL 中的选择查询中将值插入表中? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 列出所有数据库和表? 2011-02-18 00:45:49 +0800 CST

热门标签

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve