在进行数据库设计时,我经常使用参考/支持表,我们都这样做。每次我开始一个新项目时,不可避免地会有一些表:
- 有一组预定义的值。
- 永远不会改变,并且可能永远不会遇到新记录(或很少)。
一个完美的例子可能是一张Country
桌子。
create table Country
(
CountryKey int not null identity
,CountryName varchar(64) not null
,IsoNumber int not null
,Iso3 varchar(8) not null
,constraint pk_country primary key clustered (CountryKey)
);
我使用了许多不同的方法来“水化”这些类型的表,主要是:
- 带有插入语句的水化 SQL 脚本。
insert into Country (CountryName, IsoNumber ...) values ('Canada', ...)
水合 SQL 脚本,从磁盘读取,使用
bulk insert
.bulk insert MyDatabase.dbo.Country from ...
在极端情况下,还有一个编程脚本(f#、python)。
如果所有表只包含一些记录,我的首选方法是第一种。如果表格超出此限制,我通常喜欢从 CSV 文件中读取的脚本。我选择使用 CSV,因为它既紧凑又易于阅读。
其他人如何处理这种情况?
我意识到这是一个有点自以为是的问题。但我认为这值得一问,因为它不可避免地会提供具有技术原理的具体答案。
单独的文件
分开保存
CREATE TABLE
,INSERT
,GRANT
脚本。数据可能会“按项目”更改(例如“Oui”与“YES”)。此外,这似乎是我见过/从事过的大多数项目的常见设计。插入与其他
批量操作(f#、python、CSV)比多个单行
INSERT
语句更快。我肯定会用
INSERT
几行。和 Code/CSV之间的“分界点”INSERT
将由个人决定。代码的使用
当且仅当数据是基于输入参数计算时,我才会考虑使用代码 (f#,python)。(例如一次
DAY_DIMENSION
加载n天的表格)CSV 脚本
对于大量数据,您需要使用 CSV 脚本来提高速度
加载 CSV(或其他格式)文件的脚本应使用文件名作为参数。所有实用程序(例如 SQL*Loader)都这样做;您只需要将参数过滤到 Shell 脚本级别。这允许您随意加载不同的(项目特定/更新的修订版)文件。
确保记下是否
LoadMyData.sh data_0[1-3]*.csv
允许通配符(例如 )。垃圾场
移植表的最简单方法之一是使用转储(正如 Dave 所建议的)。(例如甲骨文的
expdp
/impdp
)您应该仍然可以使用 DDL 语句,以便您可以根据需要重新创建表(和转储)。