我在使用 Postgres 数据库的上下文中问这个问题,尽管我认为它适用于大多数 SQL 数据库。
在静态类型应用程序中处理数据库查询的结果时,我们需要知道特定列是否可以返回null
。当基础数据存储在具有NOT NULL
约束的表列中时,我们可以自信地在我们的应用程序中将数据键入为不可空。同样,如果没有约束,那么我们将该列键入为 nullable,因为它可以返回null
。
这很容易推理,但是当我们引入左连接和右连接时事情会变得更加复杂。例如,如果我们有一个像这样的连接子句
FROM a
LEFT JOIN b ON a.x = b.y
然后所有列都可b
以为空,因为结果可能包括a
没有匹配b
行的行。同样,如果我们这样做
FROM a
RIGHT JOIN b ON a.x = b.y
现在所有的列a
都可以为空。
从这个意义上说,我们可以说某些连接(特别是左外连接和右外连接)将一种“可空性修饰符”应用于查询投影中使用的一组或多张表。
我正在努力解决的问题是当有多个连接时这种行为是如何工作的。例如:
FROM a
LEFT JOIN b ON a.x = b.y
LEFT JOIN c ON b.x = c.y
或者
FROM a
LEFT JOIN b ON a.x = b.y
RIGHT JOIN c ON b.x = c.y
或者
FROM a
LEFT JOIN b ON a.x = b.y
INNER JOIN c ON b.x = c.y
RIGHT JOIN c ON c.x = d.y
或者
FROM a
LEFT JOIN (b INNER JOIN c ON b.x = c.y) ON a.x = b.y
如果我迭代连接集,是否有一组我可以应用的试探法可以让我为每个引用的表准确设置“可空性修饰符”,以便我可以为查询结果派生出准确的应用程序类型?上面的片段用于说明这个问题的复杂性,但我们的想法是拥有一组可以应用于任何连接集的启发式方法,无论长度、顺序或组合如何。
基于一些实验和我对 Postgres 中连接顺序如何工作的理解,我认为可以应用以下规则:
FROM
子句包含多个源表,则出于本练习的目的,每个附加表都可以转换为交叉联接。FROM
不可为空。A
现在可以为空。无论连接表之间的依赖关系如何,这都是正确的。例如,我们可以有两个左连接到
A
。这些显示为单独的行,但它们存在于同一查询中:如果我们向 中添加内部连接
A
,则左连接不受影响。但是,如果我们连接
D
到其他两个表之一,它会影响该表的可空性:A
对于(源表)和D
(内部连接表)之间的“链”中的任何其他表也是如此。你不可以。您需要知道当前记录中的特定字段是否具有值或 NULL。但是您不需要执行如此严格的静态类型,即整个记录是否可以为空。
始终期望该字段可以有 NULL 而不是值并在使用前进行检查要容易得多。
如果您使用 ODBC 连接到数据库,并
SQLGetData()
从记录集字段中读取值,只需期望它可以返回SQL_NULL_DATA
数据长度。或者,如果您使用列绑定,您为数据长度提供的指针将具有SQL_NULL_DATA
.其他接口具有类似的能力 - 在 ADO 中,字段值总是作为对象 (
ADODB.field
) 返回,并且它有一个属性.IsNull
。所以你写一些像某些语言和接口没有专用的 NULL 值。例如,在带有 DBI 的 perl 中,你会做类似的事情
这里 SQL 的 NULL 被替换为 perl 的特殊
undef
常量。与 SQL 的 NULL 含义相同,但名称不同。事实上,您真的不需要事先知道列中是否有 NULL。只是总是期望那会是。每个数据库接口都有能力告诉你,记录中的这个特定字段是否为 NULL。
话虽如此,实际上有一种方法可以询问 DBMS 的预测是否为 NULL。例如,如果您使用 ODBC,您可以在结果集的
SQLDescribeCol()
第一个之前调用。SQLFetch()
这会告诉您 是列SQL_NO_NULLS
,SQL_NULLABLE
,SQL_NULLABLE_UNKNOWN
。不幸的是,
SQL_NO_NULLS
只有从表中直接转储才为人所知,而对于查询,您更经常会得到SQL_NULLABLE_UNKNOWN
. 所以这不是绝对可靠的信息,但也不是真正需要的。