规则表 — 规则表包含一组规则,这些规则将地址输入序列标记映射到标准化的输出序列。规则定义为一组输入标记,后跟 -1(终止符),后跟一组输出标记,后跟 -1,后跟表示规则类型的数字,后跟规则的排名。
规则表必须至少包含以下列,但您也可以根据自己的用途添加更多列。
id
表的主键
rule
表示规则的文本字段。详细信息请参见 PAGC 地址标准化器规则记录。
规则由一组表示输入标记的非负整数组成,以 -1 终止,后跟相同数量的表示邮政属性的非负整数,以 -1 终止,后跟表示规则类型的整数,后跟表示规则排名的整数。规则的排名从 0(最低)到 17(最高)。
例如,规则 2 0 2 22 3 -1 5 5 6 7 3 -1 2 6
将输出标记序列 TYPE NUMBER TYPE DIRECT QUALIF 映射到输出序列 STREET STREET SUFTYP SUFDIR QUALIF。该规则是 ARC_C 规则,排名为 6。
对应输出标记的数字列在 stdaddr 中。
每个规则都以一组输入标记开头,后跟终止符 -1
。从 PAGC 输入标记 中摘录的有效输入标记如下所示
基于表单的输入标记
AMPERS
(13)。与号 (&) 经常用于缩写单词“and”。
DASH
(9)。一个标点符号。
DOUBLE
(21)。两个字母的序列。通常用作标识符。
FRACT
(25)。分数有时用于街道号码或单元号码。
MIXED
(23)。一个包含字母和数字的字母数字字符串。用于标识符。
NUMBER
(0)。一个数字字符串。
ORD
(15)。诸如 First 或 1st 之类的表示形式。通常在街道名称中使用。
ORD
(18)。一个字母。
WORD
(1)。一个词是任意长度的字母字符串。单个字母可以是 SINGLE 也可以是 WORD。
基于功能的输入标记
BOXH
(14)。用于表示邮政信箱的词语。例如 Box 或 PO Box。
BUILDH
(19)。用于表示建筑物或建筑群的词语,通常作为前缀。例如:Tower in Tower 7A。
BUILDT
(24)。用于表示建筑物或建筑群的词语和缩写,通常作为后缀。例如:Shopping Centre。
DIRECT
(22)。用于表示方向的词语,例如 North。
MILE
(20)。用于表示里程碑地址的词语。
ROAD
(6)。用于表示高速公路和道路的词语和缩写。例如:Interstate in Interstate 5
RR
(8)。用于表示乡村路线的词语和缩写。RR。
TYPE
(2)。用于表示街道类型的词语和缩写。例如:ST 或 AVE。
UNITH
(16)。用于表示内部子地址的词语和缩写。例如:APT 或 UNIT。
邮政类型输入标记
QUINT
(28)。一个 5 位数字。标识邮政编码
QUAD
(29)。一个 4 位数字。标识 ZIP4。
PCH
(27)。一个字母数字字母的 3 个字符序列。标识 FSA,加拿大邮政编码的前 3 个字符。
PCT
(26)。一个数字字母数字的 3 个字符序列。标识 LDU,加拿大邮政编码的最后 3 个字符。
停用词
STOPWORDS 与 WORDS 组合。在规则中,多个 WORD 和 STOPWORD 的字符串将由单个 WORD 标记表示。
STOPWORD
(7)。一个词汇意义较低的词,可以在解析中省略。例如:THE。
在第一个 -1(终止符)之后,是输出标记及其顺序,后跟一个终止符 -1
。对应输出标记的数字列在 stdaddr 中。允许的内容取决于规则的类型。每种规则类型有效的输出标记在“规则类型和排名”部分列出。
规则的最后一部分是规则类型,由以下之一表示,后跟规则排名。规则的排名从 0(最低)到 17(最高)。
MACRO_C
(标记编号 = "0")。用于解析 MACRO 子句的规则类别,例如 PLACE STATE ZIP
MACRO_C
输出标记 (摘自 http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--)。
CITY
(标记编号 "10")。示例 "Albany"
STATE
(标记编号 "11")。示例 "NY"
NATION
(标记编号 "12")。此属性在大多数参考文件中未使用。示例 "USA"
POSTAL
(标记编号 "13")。(SADS 元素 "ZIP CODE" , "PLUS 4" )。此属性用于美国邮政编码和加拿大邮政编码。
MICRO_C
(标记编号 = "1")。用于解析完整 MICRO 子句(例如 House、street、sufdir、predir、pretyp、suftype、qualif)的规则类别(即 ARC_C 加 CIVIC_C)。这些规则在构建阶段未使用。
MICRO_C
输出标记 (摘自 http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--)。
HOUSE
是一个文本(标记编号 1
):这是街道上的街道号码。例如 75 in 75 State Street
。
predir
是文本(标记编号 2
):街道名称前方向,例如 North、South、East、West 等。
qual
是文本(标记编号 3
):街道名称前修饰符。例如 OLD in 3715 OLD HIGHWAY 99
。
pretype
是文本(标记编号 4
):街道前缀类型
street
是文本(标记编号 5
):街道名称
suftype
是文本(标记编号 6
):街道后类型,例如 St、Ave、Cir。街道根名称后的街道类型。例如 STREET in 75 State Street
。
sufdir
是文本(标记编号 7
):街道后方向修饰符,它跟在街道名称之后。例如 WEST in 3715 TENTH AVENUE WEST
。
ARC_C
(标记编号 = "2")。用于解析 MICRO 子句的规则类别,不包括 HOUSE 属性。因此,使用与 MICRO_C 相同的输出标记集,减去 HOUSE 标记。
CIVIC_C
(标记编号 = "3")。用于解析 HOUSE 属性的规则类别。
EXTRA_C
(标记编号 = "4")。用于解析 EXTRA 属性的规则类别 - 从地理编码中排除的属性。这些规则在构建阶段未使用。
EXTRA_C
输出标记 (摘自 http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--)。
BLDNG
(标记编号 0
): 未解析的建筑物标识符和类型。
BOXH
(标记编号 14
): BOX 3B
中的 BOX
BOXT
(标记编号 15
): BOX 3B
中的 3B
RR
(标记编号 8
): RR 7
中的 RR
UNITH
(标记编号 16
): APT 3B
中的 APT
UNITT
(标记编号 17
): APT 3B
中的 3B
UNKNWN
(标记编号 9
): 否则未分类的输出。