规则表 - 规则表包含一组规则,这些规则将地址输入序列标记映射到标准化输出序列。规则定义为一组输入标记,后跟 -1(终止符),后跟一组输出标记,后跟 -1,后跟表示规则类型的数字,最后是规则的排名。
规则表必须至少包含以下列,但您可以根据自己的需要添加更多列。
表的主键
表示规则的文本字段。详情请参见 PAGC 地址标准化规则记录。
规则由一组表示输入标记的非负整数组成,以 -1 结尾,后面跟着相同数量的表示邮政属性的非负整数,以 -1 结尾,后面跟着表示规则类型的整数,最后跟着表示规则排名的整数。规则的排名从 0(最低)到 17(最高)。
例如,规则 2 0 2 22 3 -1 5 5 6 7 3 -1 2 6
将输出标记序列 TYPE NUMBER TYPE DIRECT QUALIF 映射到输出序列 STREET STREET SUFTYP SUFDIR QUALIF。该规则是排名为 6 的 ARC_C 规则。
对应输出标记的数字列在 stdaddr 中。
每个规则都以一组输入标记开头,后面跟着终止符 -1
。从 PAGC 输入标记 中摘录的有效输入标记如下
基于表单的输入标记
(13)。& 符号通常用于缩写单词“and”。
(9)。标点符号。
(21)。两个字母的序列。通常用作标识符。
(25)。分数有时用于公民号码或单元号码。
(23)。包含字母和数字的字母数字字符串。用于标识符。
(0). 一串数字。
(15). 诸如第一或第一之类的表示方式。通常用于街道名称。
(18). 单个字母。
(1). 单词是任意长度的字母串。单个字母既可以是单个字符,也可以是单词。
基于功能的输入标记
(14). 用于表示邮政信箱的词语。例如 邮箱 或 邮政信箱。
(19). 用于表示建筑物或建筑群的词语,通常用作前缀。例如:塔 在 塔 7A 中。
(24). 用于表示建筑物或建筑群的词语和缩写,通常用作后缀。例如:购物中心。
(22). 用于表示方向的词语,例如 北。
(20). 用于表示里程碑地址的词语。
(6). 用于表示高速公路和道路的词语和缩写。例如:州际公路 在 州际公路 5 中。
(8). 用于表示乡村路线的词语和缩写。 乡村路线。
(2). 用于表示街道类型的词语和缩写。例如:街 或 大道。
(16). 用于表示内部子地址的词语和缩写。例如,公寓 或 单元。
邮政类型输入标记
(28). 5 位数字。标识邮政编码。
(29). 4 位数字。标识 ZIP4。
(27). 3 个字符的字母数字字母序列。标识 FSA,加拿大邮政编码的前 3 个字符。
(26). 3 个字符的数字字母数字序列。标识 LDU,加拿大邮政编码的后 3 个字符。
停用词
停用词与单词结合使用。在规则中,多个单词和停用词的字符串将由单个单词标记表示。
(7). 词汇意义较低的词,在解析时可以省略。例如:THE。
在第一个 -1(终止符)之后,紧跟着输出标记及其顺序,最后以终止符 -1
结束。对应输出标记的数字列在 stdaddr 中。允许的输出标记取决于规则类型。每种规则类型有效的输出标记列在 名为“规则类型和等级”的部分 中。
规则的最后部分是规则类型,由以下之一表示,后面跟着规则等级。规则等级从 0(最低)到 17(最高)。
MACRO_C
(标记号 = "0"). 用于解析 MACRO 子句的规则类别,例如 PLACE STATE ZIP
MACRO_C 输出标记 (摘自 http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--。
(标记号 "10"). 例如 "Albany"
(标记号 "11"). 例如 "NY"
(标记号 "12"). 此属性在大多数参考文件中未使用。例如 "USA"
(标记号 "13"). (SADS 元素 "ZIP CODE" , "PLUS 4" ). 此属性用于美国邮政编码和加拿大邮政编码。
MICRO_C
(标记号 = "1"). 用于解析完整 MICRO 子句的规则类别(例如房屋、街道、sufdir、predir、pretyp、suftype、qualif)(即 ARC_C 加 CIVIC_C)。这些规则在构建阶段未使用。
MICRO_C 输出标记 (摘自 http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--。
是文本(标记号 1
):这是街道上的门牌号。例如 75 State Street
中的 75。
是文本(标记号 2
):街道名称前方向,例如北、南、东、西等。
是文本(标记号 3
):街道名称前修饰词。例如 3715 OLD HIGHWAY 99
中的 OLD。
是文本(标记号 4
):街道前缀类型。
是文本(标记号 5
):街道名称。
是文本(标记号 6
):街道后缀类型,例如 St、Ave、Cir。跟在街道名称根词后面的街道类型。例如 75 State Street
中的 STREET。
是文本(标记号 7
):街道后方向。跟在街道名称后面的方向修饰词。例如 3715 TENTH AVENUE WEST
中的 WEST。
ARC_C
(标记号 = "2"). 用于解析 MICRO 子句的规则类别,不包括 HOUSE 属性。因此,它使用与 MICRO_C 相同的输出标记集,减去 HOUSE 标记。
CIVIC_C
(标记号 = "3"). 解析 HOUSE 属性的规则类别。
EXTRA_C
(标记号 = "4"). 解析 EXTRA 属性的规则类别 - 从地理编码中排除的属性。这些规则在构建阶段未使用。
EXTRA_C 输出标记 (摘自 http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--).
(标记号 0
): 未解析的建筑标识符和类型。
(标记号 14
): BOX 3B
中的 BOX
(标记号 15
): BOX 3B
中的 3B
(标记号 8
): RR 7
中的 RR
(标记号 16
): APT 3B
中的 APT
(标记号 17
): APT 3B
中的 3B
(标记号 9
): 其他未分类的输出。