我正在为NAICS 数据库编写导入机制。我有几个关于这种代码格式的问题。我以前看过它,我喜欢它的设置。我将问一些关于最佳实践和数据导航的其他问题,我想简单地用正确的名称来引用它。
本质上这是数据的一个例子
CODE, TITLE
"21","Mining, Quarrying, and Oil and Gas Extraction"
"212","Mining (except Oil and Gas)"
"2121","Coal Mining"
"21211","Coal Mining"
"212111","Bituminous Coal and Lignite Surface Mining "
"212112","Bituminous Coal Underground Mining "
因此,如果Bituminous Coal Underground Mining是您的组织类型,您的代码将是212112
. 您可能会发现自己从事的业务类型是煤炭开采,然后再次查找发现您从事的是采矿业务(石油和天然气除外),然后再次查找发现您从事的业务是“采矿,采石、石油和天然气开采”。
这样的方案叫什么,是否有一个术语来指代这种数据组织?
我想调用recursive-base10或recursive-decimal之类的东西,但它有名字吗?
这种编码格式只是树或森林的表示 - 每个代码代表节点在层次结构中的位置,其中每个节点(根节点除外)只有一个父节点。
该层次结构可以直接模拟物理世界(就像杜威十进分类法对图书馆中的书籍所做的那样),也可以是更“虚拟”的东西。
我不认为这种编码有一个普遍认可的名称,所以如果您需要在文档中使用一个简洁的短语,只需选择一些简短的词来产生相对明确的首字母缩略词,与其用法保持一致,并确保它是包含在您的职权范围内。可能是“分层编码标识符”、“分层分类”、“业务位置代码”或类似名称。
不要因为它是数字而挂断:这并不重要,因为在应用于这些代码时没有有意义的数学运算。代码可以使用任何一组字符,甚至可以使用层次结构中每个级别的多个字符,对于这个系统,有人选择将编码的字母表限制为字符 1、2、3 ...对于使用其他字符或在每个位置之间有分隔符的编码有意义,因此您的最后两个示例可能是 MQE/EOG/CM/CM/BaL & MQE/EOG/CM/CM/BUM 或 MXCCL & MXCCU 在类似的方案中不同的字母表——在这些编码中,所有操作都具有同等意义(搜索、词汇排序、从代码中提取含义等)或没有意义(数学运算)。