AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / dba / 问题

问题[full-text-search](dba)

Martin Hope
jitbit
Asked: 2022-09-14 06:59:35 +0800 CST

全文搜索不会找到邮政编码“NNx”,其中“x”是一个数字

  • 3

我有一个带有邮政编码的字符串NN2 7DG。SQL Server 可以完美找到7DG但不能NN2。

我的停用词列表是空的。

我查看了索引关键字,NN2甚至不存在,7DG而是

-- list indexed keywords
SELECT * FROM sys.dm_fts_index_keywords (DB_ID('MyDatabase'), OBJECT_ID('MyTable'))

建议?

sql-server full-text-search
  • 1 个回答
  • 85 Views
Martin Hope
Jared
Asked: 2022-06-20 20:46:35 +0800 CST

如何在子查询中删除重复项和排序?

  • 2

我有一个“标题”列的记录,我按空格分割并用每个单词执行全文搜索。我将结果存储在物化视图中。

这行得通,但是我得到了各种单词的重复结果,我需要按它们的排名对结果进行排序。我可以做一个或另一个 - 不能两者兼而有之。我该怎么做?

我的查询:

SELECT
    asset.id,
    (
        select
            jsonb_agg(resultsForWord)
        FROM
            UNNEST(
                string_to_array(TRIM(regexp_replace(asset.title, '[^a-zA-Z+]', ' ', 'g')), ' ')
            ) as word
            INNER JOIN LATERAL 
            (
                SELECT
                    searchresult.id,
                    searchresult.title,
                    ts_rank(ts, to_tsquery ('english', word)) rank
                FROM
                    assets searchresult
                WHERE
                    searchresult.id != asset.id AND
                    ts_rank(ts, to_tsquery ('english', word)) > 0.5
                LIMIT 5
            ) AS resultsForWord ON 1=1
     ) results
FROM
    assets asset
WHERE asset.id = 'abc'
GROUP BY asset.id;

为了过滤掉我刚刚做的重复

jsonb_agg(DISTINCT resultsForWord)

按等级排序,我刚刚做了

jsonb_agg(resultsForWord ORDER BY rank DESC)

当我两者都做时,我得到:

ERROR: in an aggregate with DISTINCT, ORDER BY expressions must appear in argument list

示例数据:

CREATE TABLE assets (
  id TEXT PRIMARY KEY,
  title TEXT,
  ts tsvector 
   GENERATED ALWAYS AS (setweight(to_tsvector('english', coalesce(title, '')), 'A')) STORED
)

INSERT INTO assets (id, title) VALUES ('a', 'Hello world!'),
  ('b', 'Hello sir'),
  ('c', 'I am above the world'),
  ('d', 'World hello')
postgresql full-text-search
  • 2 个回答
  • 174 Views
Martin Hope
AAA
Asked: 2021-12-22 01:54:03 +0800 CST

全文搜索找不到不完整的单词

  • 0

我使用的是sql server 2019,我根据微软的例子创建了全文索引,但是有一个问题,在文本中搜索部分单词时,没有结果

sql服务器版本:

Microsoft SQL Server 2019 (RTM-CU13) (KB5005679) - 15.0.4178.1 (X64) 
    Sep 23 2021 16:47:49 
    Copyright (C) 2019 Microsoft Corporation
    Enterprise Edition (64-bit) on Windows Server 2019 Datacenter 10.0 <X64> (Build 17763: ) (Hypervisor)

例如 :

CREATE TABLE Flags (Country nvarchar(30) NOT NULL, FlagColors varchar(200));  
CREATE UNIQUE CLUSTERED INDEX FlagKey ON Flags(Country);  
INSERT Flags VALUES ('France', 'Blue and White and Red');  
INSERT Flags VALUES ('Italy', 'Green and White and Red');  
INSERT Flags VALUES ('Tanzania', 'Green and Yellow and Black and Yellow and Blue');  
SELECT * FROM Flags;  
GO  
  
CREATE FULLTEXT CATALOG TestFTCat;  
CREATE FULLTEXT INDEX ON Flags(FlagColors) KEY INDEX FlagKey ON TestFTCat;  
GO   

现在我搜索这个词blu,但尽管这个词没有结果blue(我需要一个模糊搜索)

像这样的查询:

SELECT * FROM FREETEXTTABLE (Flags, FlagColors, 'Blu');  

是什么原因?

sql-server full-text-search
  • 1 个回答
  • 178 Views
Martin Hope
Edmond Tamas
Asked: 2021-11-18 01:30:28 +0800 CST

为什么在全文搜索中找不到包含连字符的 tsquery?

  • 3

试图弄清楚为什么下面的查询没有返回任何结果:

select id from story where tsv_story_text @@ to_tsquery('CumEx-Files<->2.0');

该术语存在于数据库(PostgreSQL 11.12)中一个故事的标题中,例如:

CumEx-Files 2.0 investigation reveals €150bn tax fraud

我可以让查询工作的唯一方法是在向量​​和有效的查询中用破折号替换连字符,所以我尝试调试这个短语,但似乎连字符只是一个空格符号 - 我认为它必须对短语中的数字做些什么,或者是吗?

SELECT * FROM ts_debug('english', 'CumEx-Files<->2.0');
      alias      |           description           |    token    |  dictionaries  |  dictionary  |   lexemes
-----------------+---------------------------------+-------------+----------------+--------------+-------------
 asciihword      | Hyphenated word, all ASCII      | CumEx-Files | {english_stem} | english_stem | {cumex-fil}
 hword_asciipart | Hyphenated word part, all ASCII | CumEx       | {english_stem} | english_stem | {cumex}
 blank           | Space symbols                   | -           | {}             |              |
 hword_asciipart | Hyphenated word part, all ASCII | Files       | {english_stem} | english_stem | {file}
 blank           | Space symbols                   | <           | {}             |              |
 blank           | Space symbols                   | ->          | {}             |              |
 float           | Decimal notation                | 2.0         | {simple}       | simple       | {2.0}
postgresql full-text-search
  • 1 个回答
  • 231 Views
Martin Hope
user1031947
Asked: 2021-10-28 14:51:05 +0800 CST

运行具有布尔全文搜索的查询时出现 OOM 错误?

  • 0

在运行其中包含布尔全文搜索的查询时,我遇到了间歇性的 oom 错误。

我在 AWS Aurora (t2.medium) 上。

这是一个示例查询,考虑到表“sets”在列(savename、title)上有一个全文索引,并且其中有大约 200 万行。

        select          sets.id, sets.title,
                        drafts.draftId as draftId,
                        folderSets.folderId as folderId,
                        concat_ws(' ', savedBy.firstname, savedBy.lastname) as savedBy,
                        match(sets.savename, sets.title) against ("+s*" in boolean mode) as relevance
        from            sets as sets
        join            folderSets as folderSets on folderSets.setId = sets.id
        join            folders as folders on folders.id = folderSets.folderId 
        left join       draftSets as drafts on drafts.originalId = sets.id and drafts.userId = ?
        left join       users as savedBy on savedBy.id = folderSets.userId
        where           (folders.userId = ?)
                        and match(sets.savename, sets.title) against ("+s*" in boolean mode)
        order by        relevance
        limit           0, 25;

此查询大约需要 5 秒才能运行。如果我敲了几次,查询很可能会失败并出现 OOM。

如果我将布尔全文搜索短语从“+s*”更改为“+sam*”——因此通配符之前有更多字符——相同的查询在大约 0.15 秒内执行,没有任何问题。

如果我从查询中删除布尔搜索 altogehter,查询运行得更快,没有任何问题。

因此,查询的布尔全文部分似乎发生了一些事情,达到了 mysql 限制。

以下是 innodb 全文系统变量:

ft_boolean_syntax................... + -><()~*:""&|
ft_max_word_len..................... 84
ft_min_word_len..................... 1
ft_query_expansion_limit............ 20
ft_stopword_file.................... /dev/null
innodb_ft_aux_table................. 
innodb_ft_cache_size................ 8000000
innodb_ft_enable_diag_print......... OFF
innodb_ft_enable_stopword........... OFF
innodb_ft_max_token_size............ 84
innodb_ft_min_token_size............ 1
innodb_ft_num_word_optimize......... 2000
innodb_ft_result_cache_limit........ 2000000000
innodb_ft_server_stopword_table..... 
innodb_ft_sort_pll_degree........... 2
innodb_ft_total_cache_size.......... 640000000
innodb_ft_user_stopword_table.......

有没有人对可以进行任何调整以减少与布尔全文相关的 OOM 的可能性有任何建议?我不清楚这是可以/应该在 sql 查询级别/mysql innodb 设置级别/或者如果我处于需要增加 aws rds 实例大小的情况。

在此先感谢您的帮助!

mysql full-text-search
  • 2 个回答
  • 141 Views
Martin Hope
karpfen
Asked: 2021-10-08 04:41:11 +0800 CST

在文本搜索配置中配置空格符号

  • 2

我正在使用以下文本搜索配置:

CREATE TEXT SEARCH DICTIONARY tsd
  (TEMPLATE = pg_catalog.SIMPLE);
  
CREATE TEXT SEARCH CONFIGURATION tsc_test
  (COPY = german);
ALTER TEXT SEARCH CONFIGURATION tsc_test
  ALTER MAPPING FOR asciihword, asciiword, hword, hword_asciipart, hword_part, word
  WITH tsd;

我正在尝试对表格执行全文搜索,但我无法弄清楚如何正确定义文本搜索配置。我的问题是

SELECT to_tsvector('tsc_test', 'foo bar');

和

SELECT to_tsvector('tsc_test', 'foo_bar');

产生相同的tsvector对象,因为_(和其他,如#(){}等)被解释为空格符号(请参阅SELECT ts_debug ('tsc_test', 'foo_bar');)。然而,我需要它们是不同的。

有没有办法调整我的文本搜索配置,使其仅将空格 视为单词分隔符而不是其他任何东西?

postgresql full-text-search
  • 1 个回答
  • 148 Views
Martin Hope
ARX
Asked: 2021-09-05 08:02:31 +0800 CST

Postgres 上 SELECT 中的 unnest() 与 FROM 中的 unnest() 之间的区别

  • 0

我希望将 tsvector 数组的词位放在一列中,每行一个。我可以首先取消嵌套数组,然后使用以下命令生成 tsvector:

SELECT (unnest(unnest(my_array))).lexeme
FROM my_table
WHERE id = 1;

这使:

lexeme  
----------
foo
bar
baz
...

但是,我注意到,如果我尝试在 FROM 子句中做同样的事情:

SELECT lexeme
FROM unnest(
    (SELECT unnest(my_array) FROM my_table WHERE id = 1)
);

我得到:

错误:用作表达式的子查询返回多行

所以,我最终这样做:

SELECT lexeme
FROM (
    SELECT (unnest(col1)).lexeme
    FROM (
        SELECT unnest(my_array) 
        FROM my_table 
        WHERE id = 1 
    ) AS t(col1)
) AS t2;

我得到了原始结果。但这很冗长。所以,我想知道:

  1. 为什么 unnest() 在 FROM 子句中需要单个输入行,但在 SELECT 子句中不需要?

  2. 有没有比我的代码更简洁、不那么复杂的方式来获取 FROM 子句中的词位列?

  3. SELECT 子句中的取消嵌套与 FROM 子句中的取消嵌套在性能上是否存在差异?

postgresql full-text-search
  • 1 个回答
  • 794 Views
Martin Hope
AnthonyVO
Asked: 2021-06-24 10:24:41 +0800 CST

Oracle-Text OR 可以用逗号代替吗?

  • 0

我在我的应用程序中加入了用户可访问的 Oracle-Text 功能,我注意到逗号,可以用来代替OR管道|字符。

搜索“red OR green OR blue”会返回与“red|green|blue”或“red,green,blue”相同的结果。

我查看了Oracle-Text Contains文档并尝试了我最喜欢的搜索引擎,但我没有找到任何文档来支持或否定我的发现,并且,从未提及逗号。

我想提到逗号,作为我的用户的一个选项,但我不想没有一些支持文档。

oracle full-text-search
  • 1 个回答
  • 31 Views
Martin Hope
DharmaTurtle
Asked: 2020-08-11 16:25:55 +0800 CST

`ts_rank` 正在返回未通过“大于”检查的数字/十进制/实数

  • 3

以下产量(似乎完全正确)0.1:

select ts_rank_cd(to_tsvector('cat'), to_tsquery('cat'));

然而,以下产量t:

select ts_rank_cd(to_tsvector('cat'), to_tsquery('cat')) > 0.1;

t如果操作是,我希望它会产生>=,而不是>如何获得它的“真实”值ts_rank_cd以便它返回f?


作为背景,我正在编写一个使用键集分页的全文搜索查询ts_rank,因此能够根据具体、精确的值对结果进行排序ts_rank很重要。使用键集分页,客户端提供当前页面的最后一个结果作为参数并请求下一页。目前,当我的客户传回0.1时,上述>行为会导致错误的结果

postgresql full-text-search
  • 1 个回答
  • 165 Views
Martin Hope
jiamo
Asked: 2020-07-23 02:17:44 +0800 CST

postgresql全文搜索如何禁用文件解析器?

  • 1
select to_tsvector('english_nostop', 'u,s') @@ to_tsquery('english_nostop', 'u<->s');

返回t,而

select to_tsvector('english_nostop', 'u.s') @@ to_tsquery('english_nostop', 'u<->s');

返回f

用这个调试:

SELECT alias, token, lexemes FROM ts_debug('english_nostop', 'u.s');
alias | token | lexemes
-------+-------+---------
file  | u.s   | {u.s}

和

audiobook=> SELECT alias, token, lexemes FROM ts_debug('english_nostop', 'u,s');
alias   | token | lexemes
-----------+-------+---------
asciiword | u     | {u}
blank     | ,     |
asciiword | s     | {s}

怎样才能消除这种行为。做.喜欢,?别名file似乎认为u.s是特殊的。

这是我的配置:

CREATE TEXT SEARCH DICTIONARY english_stem_nostop (
Template = snowball
, Language = english
);

CREATE TEXT SEARCH CONFIGURATION public.english_nostop ( COPY = pg_catalog.english );
ALTER TEXT SEARCH CONFIGURATION public.english_nostop
ALTER MAPPING FOR asciiword, asciihword, hword_asciipart, hword, hword_part, word WITH english_stem_nostop;
ALTER TEXT SEARCH CONFIGURATION public.english_nostop DROP MAPPING FOR asciihword, hword;

而且我们不能简单地删除file,这将删除全部文本:

ALTER TEXT SEARCH CONFIGURATION public.english_nostop DROP MAPPING FOR file;
SELECT alias, token, lexemes FROM ts_debug('english_nostop', 'u.s');
alias | token | lexemes
-------+-------+---------
file  | u.s   |

这也是错误的。如果我们ALTER MAPPING for file,我们得到

SELECT alias, token, lexemes FROM ts_debug('english_nostop', 'u.s');
alias | token | lexemes
-------+-------+---------
file  | u.s   | {u.}

仍然不是我的目的。

postgresql full-text-search
  • 2 个回答
  • 261 Views

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目

    • 12 个回答
  • Marko Smith

    如何让sqlplus的输出出现在一行中?

    • 3 个回答
  • Marko Smith

    选择具有最大日期或最晚日期的日期

    • 3 个回答
  • Marko Smith

    如何列出 PostgreSQL 中的所有模式?

    • 4 个回答
  • Marko Smith

    列出指定表的所有列

    • 5 个回答
  • Marko Smith

    如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

    • 4 个回答
  • Marko Smith

    你如何mysqldump特定的表?

    • 4 个回答
  • Marko Smith

    使用 psql 列出数据库权限

    • 10 个回答
  • Marko Smith

    如何从 PostgreSQL 中的选择查询中将值插入表中?

    • 4 个回答
  • Marko Smith

    如何使用 psql 列出所有数据库和表?

    • 7 个回答
  • Martin Hope
    Jin 连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane 如何列出 PostgreSQL 中的所有模式? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh 为什么事务日志不断增长或空间不足? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland 列出指定表的所有列 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney MySQL 能否合理地对数十亿行执行查询? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx 如何监控大型 .sql 文件的导入进度? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison 你如何mysqldump特定的表? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 对 SQL 查询进行计时? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas 如何从 PostgreSQL 中的选择查询中将值插入表中? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 列出所有数据库和表? 2011-02-18 00:45:49 +0800 CST

热门标签

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve