名称

规则表 - 规则表包含一组规则,这些规则将地址输入序列标记映射到标准化输出序列。规则定义为一组输入标记,后跟 -1(终止符),后跟一组输出标记,后跟 -1,后跟表示规则类型的数字,最后是规则的排名。

描述

规则表必须至少包含以下列,但您可以根据自己的需要添加更多列。

id

表的主键

规则

表示规则的文本字段。详情请参见 PAGC 地址标准化规则记录

规则由一组表示输入标记的非负整数组成,以 -1 结尾,后面跟着相同数量的表示邮政属性的非负整数,以 -1 结尾,后面跟着表示规则类型的整数,最后跟着表示规则排名的整数。规则的排名从 0(最低)到 17(最高)。

例如,规则 2 0 2 22 3 -1 5 5 6 7 3 -1 2 6 将输出标记序列 TYPE NUMBER TYPE DIRECT QUALIF 映射到输出序列 STREET STREET SUFTYP SUFDIR QUALIF。该规则是排名为 6 的 ARC_C 规则。

对应输出标记的数字列在 stdaddr 中。

输入标记

每个规则都以一组输入标记开头,后面跟着终止符 -1。从 PAGC 输入标记 中摘录的有效输入标记如下

基于表单的输入标记

AMPERS

(13)。& 符号通常用于缩写单词“and”。

DASH

(9)。标点符号。

DOUBLE

(21)。两个字母的序列。通常用作标识符。

FRACT

(25)。分数有时用于公民号码或单元号码。

MIXED

(23)。包含字母和数字的字母数字字符串。用于标识符。

数字

(0). 一串数字。

序数

(15). 诸如第一或第一之类的表示方式。通常用于街道名称。

序数

(18). 单个字母。

单词

(1). 单词是任意长度的字母串。单个字母既可以是单个字符,也可以是单词。

基于功能的输入标记

邮箱

(14). 用于表示邮政信箱的词语。例如 邮箱邮政信箱

建筑

(19). 用于表示建筑物或建筑群的词语,通常用作前缀。例如:塔 7A 中。

建筑类型

(24). 用于表示建筑物或建筑群的词语和缩写,通常用作后缀。例如:购物中心

方向

(22). 用于表示方向的词语,例如

里程

(20). 用于表示里程碑地址的词语。

道路

(6). 用于表示高速公路和道路的词语和缩写。例如:州际公路州际公路 5 中。

乡村路线

(8). 用于表示乡村路线的词语和缩写。 乡村路线

类型

(2). 用于表示街道类型的词语和缩写。例如:大道

单元

(16). 用于表示内部子地址的词语和缩写。例如,公寓单元

邮政类型输入标记

五位数

(28). 5 位数字。标识邮政编码。

四位数

(29). 4 位数字。标识 ZIP4。

FSA

(27). 3 个字符的字母数字字母序列。标识 FSA,加拿大邮政编码的前 3 个字符。

LDU

(26). 3 个字符的数字字母数字序列。标识 LDU,加拿大邮政编码的后 3 个字符。

停用词

停用词与单词结合使用。在规则中,多个单词和停用词的字符串将由单个单词标记表示。

停用词

(7). 词汇意义较低的词,在解析时可以省略。例如:THE

输出标记

在第一个 -1(终止符)之后,紧跟着输出标记及其顺序,最后以终止符 -1 结束。对应输出标记的数字列在 stdaddr 中。允许的输出标记取决于规则类型。每种规则类型有效的输出标记列在 名为“规则类型和等级”的部分 中。

规则类型和等级

规则的最后部分是规则类型,由以下之一表示,后面跟着规则等级。规则等级从 0(最低)到 17(最高)。

MACRO_C

(标记号 = "0"). 用于解析 MACRO 子句的规则类别,例如 PLACE STATE ZIP

MACRO_C 输出标记 (摘自 http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--

CITY

(标记号 "10"). 例如 "Albany"

STATE

(标记号 "11"). 例如 "NY"

NATION

(标记号 "12"). 此属性在大多数参考文件中未使用。例如 "USA"

POSTAL

(标记号 "13"). (SADS 元素 "ZIP CODE" , "PLUS 4" ). 此属性用于美国邮政编码和加拿大邮政编码。

MICRO_C

(标记号 = "1"). 用于解析完整 MICRO 子句的规则类别(例如房屋、街道、sufdir、predir、pretyp、suftype、qualif)(即 ARC_C 加 CIVIC_C)。这些规则在构建阶段未使用。

MICRO_C 输出标记 (摘自 http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--

HOUSE

是文本(标记号 1):这是街道上的门牌号。例如 75 State Street 中的 75

predir

是文本(标记号 2):街道名称前方向,例如北、南、东、西等。

qual

是文本(标记号 3):街道名称前修饰词。例如 3715 OLD HIGHWAY 99 中的 OLD

pretype

是文本(标记号 4):街道前缀类型。

street

是文本(标记号 5):街道名称。

suftype

是文本(标记号 6):街道后缀类型,例如 St、Ave、Cir。跟在街道名称根词后面的街道类型。例如 75 State Street 中的 STREET

sufdir

是文本(标记号 7):街道后方向。跟在街道名称后面的方向修饰词。例如 3715 TENTH AVENUE WEST 中的 WEST

ARC_C

(标记号 = "2"). 用于解析 MICRO 子句的规则类别,不包括 HOUSE 属性。因此,它使用与 MICRO_C 相同的输出标记集,减去 HOUSE 标记。

CIVIC_C

(标记号 = "3"). 解析 HOUSE 属性的规则类别。

EXTRA_C

(标记号 = "4"). 解析 EXTRA 属性的规则类别 - 从地理编码中排除的属性。这些规则在构建阶段未使用。

EXTRA_C 输出标记 (摘自 http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--).

BLDNG

(标记号 0): 未解析的建筑标识符和类型。

邮箱

(标记号 14): BOX 3B 中的 BOX

BOXT

(标记号 15): BOX 3B 中的 3B

乡村路线

(标记号 8): RR 7 中的 RR

单元

(标记号 16): APT 3B 中的 APT

UNITT

(标记号 17): APT 3B 中的 3B

UNKNWN

(标记号 9): 其他未分类的输出。