名称

规则表 — 规则表包含一组规则,这些规则将地址输入序列标记映射到标准化的输出序列。规则定义为一组输入标记,后跟 -1(终止符),后跟一组输出标记,后跟 -1,后跟表示规则类型的数字,后跟规则的排名。

描述

规则表必须至少包含以下列,但您也可以根据自己的用途添加更多列。

id

表的主键

rule

表示规则的文本字段。详细信息请参见 PAGC 地址标准化器规则记录

规则由一组表示输入标记的非负整数组成,以 -1 终止,后跟相同数量的表示邮政属性的非负整数,以 -1 终止,后跟表示规则类型的整数,后跟表示规则排名的整数。规则的排名从 0(最低)到 17(最高)。

例如,规则 2 0 2 22 3 -1 5 5 6 7 3 -1 2 6 将输出标记序列 TYPE NUMBER TYPE DIRECT QUALIF 映射到输出序列 STREET STREET SUFTYP SUFDIR QUALIF。该规则是 ARC_C 规则,排名为 6。

对应输出标记的数字列在 stdaddr 中。

输入标记

每个规则都以一组输入标记开头,后跟终止符 -1。从 PAGC 输入标记 中摘录的有效输入标记如下所示

基于表单的输入标记

AMPERS

(13)。与号 (&) 经常用于缩写单词“and”。

DASH

(9)。一个标点符号。

DOUBLE

(21)。两个字母的序列。通常用作标识符。

FRACT

(25)。分数有时用于街道号码或单元号码。

MIXED

(23)。一个包含字母和数字的字母数字字符串。用于标识符。

NUMBER

(0)。一个数字字符串。

ORD

(15)。诸如 First 或 1st 之类的表示形式。通常在街道名称中使用。

ORD

(18)。一个字母。

WORD

(1)。一个词是任意长度的字母字符串。单个字母可以是 SINGLE 也可以是 WORD。

基于功能的输入标记

BOXH

(14)。用于表示邮政信箱的词语。例如 BoxPO Box

BUILDH

(19)。用于表示建筑物或建筑群的词语,通常作为前缀。例如:Tower in Tower 7A

BUILDT

(24)。用于表示建筑物或建筑群的词语和缩写,通常作为后缀。例如:Shopping Centre

DIRECT

(22)。用于表示方向的词语,例如 North

MILE

(20)。用于表示里程碑地址的词语。

ROAD

(6)。用于表示高速公路和道路的词语和缩写。例如:Interstate in Interstate 5

RR

(8)。用于表示乡村路线的词语和缩写。RR

TYPE

(2)。用于表示街道类型的词语和缩写。例如:STAVE

UNITH

(16)。用于表示内部子地址的词语和缩写。例如:APTUNIT

邮政类型输入标记

QUINT

(28)。一个 5 位数字。标识邮政编码

QUAD

(29)。一个 4 位数字。标识 ZIP4。

PCH

(27)。一个字母数字字母的 3 个字符序列。标识 FSA,加拿大邮政编码的前 3 个字符。

PCT

(26)。一个数字字母数字的 3 个字符序列。标识 LDU,加拿大邮政编码的最后 3 个字符。

停用词

STOPWORDS 与 WORDS 组合。在规则中,多个 WORD 和 STOPWORD 的字符串将由单个 WORD 标记表示。

STOPWORD

(7)。一个词汇意义较低的词,可以在解析中省略。例如:THE

输出标记

在第一个 -1(终止符)之后,是输出标记及其顺序,后跟一个终止符 -1。对应输出标记的数字列在 stdaddr 中。允许的内容取决于规则的类型。每种规则类型有效的输出标记在“规则类型和排名”部分列出。

规则类型和排名

规则的最后一部分是规则类型,由以下之一表示,后跟规则排名。规则的排名从 0(最低)到 17(最高)。

MACRO_C

(标记编号 = "0")。用于解析 MACRO 子句的规则类别,例如 PLACE STATE ZIP

MACRO_C 输出标记 (摘自 http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--)。

CITY

(标记编号 "10")。示例 "Albany"

STATE

(标记编号 "11")。示例 "NY"

NATION

(标记编号 "12")。此属性在大多数参考文件中未使用。示例 "USA"

POSTAL

(标记编号 "13")。(SADS 元素 "ZIP CODE" , "PLUS 4" )。此属性用于美国邮政编码和加拿大邮政编码。

MICRO_C

(标记编号 = "1")。用于解析完整 MICRO 子句(例如 House、street、sufdir、predir、pretyp、suftype、qualif)的规则类别(即 ARC_C 加 CIVIC_C)。这些规则在构建阶段未使用。

MICRO_C 输出标记 (摘自 http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--)。

HOUSE

是一个文本(标记编号 1):这是街道上的街道号码。例如 75 in 75 State Street

predir

是文本(标记编号 2):街道名称前方向,例如 North、South、East、West 等。

qual

是文本(标记编号 3):街道名称前修饰符。例如 OLD in 3715 OLD HIGHWAY 99

pretype

是文本(标记编号 4):街道前缀类型

street

是文本(标记编号 5):街道名称

suftype

是文本(标记编号 6):街道后类型,例如 St、Ave、Cir。街道根名称后的街道类型。例如 STREET in 75 State Street

sufdir

是文本(标记编号 7):街道后方向修饰符,它跟在街道名称之后。例如 WEST in 3715 TENTH AVENUE WEST

ARC_C

(标记编号 = "2")。用于解析 MICRO 子句的规则类别,不包括 HOUSE 属性。因此,使用与 MICRO_C 相同的输出标记集,减去 HOUSE 标记。

CIVIC_C

(标记编号 = "3")。用于解析 HOUSE 属性的规则类别。

EXTRA_C

(标记编号 = "4")。用于解析 EXTRA 属性的规则类别 - 从地理编码中排除的属性。这些规则在构建阶段未使用。

EXTRA_C 输出标记 (摘自 http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--)。

BLDNG

(标记编号 0): 未解析的建筑物标识符和类型。

BOXH

(标记编号 14): BOX 3B 中的 BOX

BOXT

(标记编号 15): BOX 3B 中的 3B

RR

(标记编号 8): RR 7 中的 RR

UNITH

(标记编号 16): APT 3B 中的 APT

UNITT

(标记编号 17): APT 3B 中的 3B

UNKNWN

(标记编号 9): 否则未分类的输出。