即使在阅读了 Wikipedia 上的Data Scrubbing之后,当术语用于数据库时,我仍然不清楚 Data Scrubbing 到底是什么。
有一种预定义的方式来执行数据清理,这是一个正式的工程原理吗?如果是这样,我应该研究的关键字是什么?
- 或者 -
简单地清理数据库中的不一致数据是一个笼统的术语还是一个松散的术语?
什么是数据清理?
即使在阅读了 Wikipedia 上的Data Scrubbing之后,当术语用于数据库时,我仍然不清楚 Data Scrubbing 到底是什么。
有一种预定义的方式来执行数据清理,这是一个正式的工程原理吗?如果是这样,我应该研究的关键字是什么?
- 或者 -
简单地清理数据库中的不一致数据是一个笼统的术语还是一个松散的术语?
什么是数据清理?
在数据库上下文中,它是对与架构一致但在更高级别上是错误的数据的更正,例如无效的信用卡号和 SSN、重复记录、格式不匹配等。
它是一个笼统的、松散的术语,仅在特定情况下才具有特定含义。
我创建了“数据清理”例程来定期检查和修复实时检查可能不切实际的数据库问题(即在输入数据时检查错误、不一致或重复)。清理例程可以修复特定类型的错误,例如检查邮政编码条目是否与城市/州匹配,或者在给定地址的情况下查找客户名称的变体(重复的客户)。
有时,当数据库被非规范化(出于性能原因)时,清理例程可以在“非高峰”时间检查数据库以确保数据保持一致。