AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / server / 问题

问题[charset](server)

Martin Hope
Headbank
Asked: 2020-08-06 14:21:47 +0800 CST

我可以有效地将 spamassassin 贝叶斯令牌从 utf8 CHAR(5) 转换为 BINARY(5) 吗?

  • 1

我的 spamassassin 设置非常旧,并且已经迁移到两台机器和多个 mysql 重新安装。我最近注意到,sa-learn在消息上运行时,我的日志中会出现大量错误,如下所示:

bayes: _put_token: SQL error: Incorrect string value: '\x8A\x98s\x9A\xC8' for column 'token' at row 1

我检查了数据库并进行了一些研究,发现这个非常古老的错误报告指出了这个问题:我的架构(非常!)过时了。该列bayes_token.token是CHAR(5)排序规则 utf8_general_ci,截至 9 年前,应该是BINARY(5).

我不能简单地转换列类型,因为许多 UTF8 5-char 值长于 5 个字节(表有 ~110K 行)。

我的问题是:是否有任何方法可以截断过长的标记,使它们在贝叶斯分类器中保持有效?或者如果失败了,我可以只删除那些行,以便我可以将其余部分转换为二进制?

更新:我确实设法将列内容传输到BINARY(5)表中的一个添加列(这里命名为token2),如下所示:

UPDATE bayes_token SET token2 = CONVERT(token USING latin1);

这与我所能想到的“退回”插入时令牌发生的事情一样接近。但是,结果列中有许多重复项,并且由于该token列是主键的一部分,这不好。

我认为数据可以保存,但可能不是纯 SQL。我需要:

  1. 从最新模式创建空表的新副本
  2. 对每个标记的所有重复项进行分组,并将这些行的值ham_count和spam_count最大值相加atime
  3. 将这些聚合结果插入到新表中
  4. 用新表替换原来的表
mysql spamassassin charset
  • 2 个回答
  • 209 Views
Martin Hope
shantanuo
Asked: 2020-04-03 01:02:05 +0800 CST

gmail compose 添加了不可见的额外字符

  • 1

我有这段代码在 chrome 浏览器窗口中按预期工作。这是 Athena 中的 Amazon Web Services 创建表语句。

CREATE EXTERNAL TABLE IF NOT EXISTS default.sh_code (
  `shcode` string,
  `mob` bigint,
  `c_id` int,
  `o_series` int,
  `c_at` timestamp,
  `archive` int 
)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
  'field.delim' = '\t'
) LOCATION 's3://testme16234/short_unique_codes/'
TBLPROPERTIES ('has_encrypted_data'='false');

如果我将代码复制粘贴到 gmail 撰写窗口中,则很难取回相同的代码。我可以从 gmail 窗口复制粘贴回 AWS 窗口,但执行时出现错误。当我将代码粘贴到 gmail 撰写窗口中时,文本中是否添加了一些额外的代码?

google-chrome charset
  • 1 个回答
  • 14 Views
Martin Hope
lkp111138
Asked: 2017-02-14 07:41:12 +0800 CST

每个部分的默认字符集,包括错误页面

  • 0

我想故意为我服务器上的某些页面生成 404 错误,我目前正在处理标题。问题是,对于存在的脚本(并且我在脚本中给出了 404 错误),Content-Type标题字段显示text/html; charset=UTF-8,而对于真正的 404 页面,相同的字段显示text/html; charset=iso-8859-1,这违背了我的目的。我尝试添加AddDefaultCharset UTF-8到主配置,但没有运气。问题是,如何在这些真正的错误页面上设置字符集?

charset apache-2.4 custom-errors
  • 1 个回答
  • 377 Views
Martin Hope
Toto
Asked: 2010-04-08 11:10:16 +0800 CST

如何正确备份 mediawiki 数据库 (mysql) 而不会弄乱数据?

  • 5

我想使用 mysqldump 备份存储在 MySQL 服务器 5.1.36 中的 mediawiki 数据库。

大多数 wiki 文章都是用西班牙语编写的,并且不想通过使用错误的字符集创建转储来搞砸它。

mysql> status
--------------
...
Current database:       wikidb
Current user:           root@localhost
...
Server version:         5.1.36-community-log MySQL Community Server (GPL)
....
Server characterset:    latin1
Db     characterset:    utf8
Client characterset:    latin1
Conn.  characterset:    latin1
...

使用以下命令:

mysql> show create table text;

我看到 table create 语句将字符集设置为binary:

CREATE TABLE `text` (
  `old_id` int(10) unsigned NOT NULL AUTO_INCREMENT,
  `old_text` mediumblob NOT NULL,
  `old_flags` tinyblob NOT NULL,
  PRIMARY KEY (`old_id`)
) ENGINE=InnoDB AUTO_INCREMENT=317 DEFAULT CHARSET=binary MAX_ROWS=10000000 AVG_ROW_LENGTH=10240

我应该如何使用 mysqldump 为该数据库正确生成备份?

backup mysql charset mediawiki
  • 3 个回答
  • 2523 Views
Martin Hope
Weiwei
Asked: 2010-04-06 21:32:16 +0800 CST

如何检查mysql数据库的字符集和排序规则?

  • 0

如何检查mysql数据库的字符集和排序规则?或者mysql数据库的字符集和排序规则是什么命令?

谢谢

mysql sql charset
  • 1 个回答
  • 418 Views
Martin Hope
Omar Al-Ithawi
Asked: 2009-08-26 02:43:05 +0800 CST

MYSQL 排序规则 [utf8_general_ci] 和 [utf8_unicode_ci]。有什么不同?

  • 0

我想知道mysql编码字符集UTF8中的这些两个排序规则之间是否有任何不同:
utf8_general_ci它们 看起来都一样!注意:现在我只用英语写它们,但我担心如果我插入另一种语言(如阿拉伯语)会产生副作用。utf8_unicode_ci

mysql charset encoding
  • 1 个回答
  • 939 Views
Martin Hope
Amandasaurus
Asked: 2009-06-27 06:57:09 +0800 CST

确保 MySQL 数据库完全采用 UTF8 的最佳方法

  • 8

在 UTF8 和非 UTF8 字符串出现一些问题之后,我们正在对 UTF8 进行标准化。我需要做的一件事是检查 MySQL 数据库中的所有内容是否都是 UTF8 格式?我需要检查什么?

  • 服务器默认字符集
  • 每个数据库的默认字符集
  • 每个文本列都有一个字符集吗?我该如何检查?

我正在考虑将所有这些都放在一个 nagios 插件中,以检查所有内容是否都在 UTF8 中。建议?

mysql database charset utf-8 unicode
  • 5 个回答
  • 5397 Views
Martin Hope
Dónal
Asked: 2009-05-14 11:52:53 +0800 CST

mysql:将默认字符集设置为 utf8

  • 1

为了将 MySQL 服务器的默认字符集设置为 utf8,我添加了以下选项my.ini

character-set-server=utf8
default-collation=utf8_unicode_ci

但是当我启动 mysql 客户端时,我收到以下错误消息:

错误:在配置文件中找到没有前面组的选项:C:\dev\tools\mysql\my.ini 在行:2 默认处理中的致命错误。程序中止

有谁知道在这个配置文件中设置默认字符集的正确方法是什么?

mysql charset
  • 1 个回答
  • 3286 Views

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    新安装后 postgres 的默认超级用户用户名/密码是什么?

    • 5 个回答
  • Marko Smith

    SFTP 使用什么端口?

    • 6 个回答
  • Marko Smith

    命令行列出 Windows Active Directory 组中的用户?

    • 9 个回答
  • Marko Smith

    什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同?

    • 3 个回答
  • Marko Smith

    如何确定bash变量是否为空?

    • 15 个回答
  • Martin Hope
    Tom Feiner 如何按大小对 du -h 输出进行排序 2009-02-26 05:42:42 +0800 CST
  • Martin Hope
    Noah Goodrich 什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同? 2009-05-19 18:24:42 +0800 CST
  • Martin Hope
    Brent 如何确定bash变量是否为空? 2009-05-13 09:54:48 +0800 CST
  • Martin Hope
    cletus 您如何找到在 Windows 中打开文件的进程? 2009-05-01 16:47:16 +0800 CST

热门标签

linux nginx windows networking ubuntu domain-name-system amazon-web-services active-directory apache-2.4 ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve