Skip to content

Unicode:修饰符 “u” 和 class \p

前言

JavaScript 使用 Unicode 编码 (Unicode encoding)对字符串进行编码。大多数字符使用 2 个字节编码,但这种方式只能编码最多 65536 个字符。

这个范围不足以对所有可能的字符进行编码,这就是为什么一些罕见的字符使用 4 个字节进行编码,比如 𝒳 (数学符号 X)或者 😄 (笑脸),一些象形文字等等。

Unicode编码

以下是一些字符对应的 unicode 编码:

字符Unicodeunicode 中的字节数
a0x00612
0x22482
𝒳0x1d4b34
𝒴0x1d4b44
😄0x1f6044

所以像 a 这样的字符占用 2 个字节,而 𝒳𝒴😄 的对应编码则更长,它们具有 4 个字节的长度。

很久以前,当 JavaScript 被发明出来的时候,Unicode 的编码要更加简单:当时并没有 4 个字节长的字符。所以,一部分语言特性在现在仍旧无法对 unicode 进行正确的处理。

比如 length 认为这里的输入有 2 个字符:

js
console.log('😄'.length); // 2
console.log('𝒳'.length); // 2

科普一下:

计算机底层存储数据是以二进制的形式,每一位只能是0或者1。

0000 0000,这代表八位的二进制,可以表示的范围为0000 0000 - 1111 1111,也即表示十进制的0 - 255

0000 0000,可以说它有八位,或者它有八比特,即:1位 = 1 比特(bit)。

还有一个单位叫字节(byte),也是我们熟悉的大写的B。规定,一个字节由八位的二进制构成,即:1 byte = 8 bit 。

而JavaScript在编写字符串时,使用的是Unicode编码,大多数字符由2个字节进行编码(所以用二进制表示就是 16位,2byte = 16位),也即 计算机编码一个字符时,

大多数是16位的二进制,0000 0000 0000 0000 - 1111 1111 1111 1111,可以表示的范围为,0 - 65535 ,所以使用两个字节编码字符串的时候,最多能表示出来 65536 种字符,对于现在显然是不够的,所以一些特殊的字符就使用了4个字节来编码。

所以在上面的例子中,😄.length肉眼看是一个字符,应该输出1,但是却输出了2,就是因为它是使用4个字节编码的。

默认情况下,正则表达式同样把一个 4 个字节的“长字符”当成一对 2 个字节长的字符。正如在字符串中遇到的情况,这将导致一些奇怪的结果。我们将很快在后面的文章中遇到 集合和范围

与字符串有所不同的是,正则表达式有一个修饰符 u 被用以解决此类问题。当一个正则表达式使用这个修饰符后,4 个字节长的字符将被正确地处理。同时也能够用上 Unicode 属性(Unicode property)来进行查找了。我们接下来就来了解这方面的内容。

Unicode 属性\p{}

在 Firefox 和 Edge 中缺乏支持

尽管 unicode property 从 2018 年以来便作为标准的一部分, 但 unicode 属性在 Firefox (bug) 和 Edge (bug) 中并没有相应的支持。

目前 XRegExp 这个库提供“扩展”的正则表达式,其中包括对 unicode property 的跨平台支持。

Unicode 中的每一个字符都具有很多的属性。它们描述了一个字符属于哪个“类别”,包含了各种关于字符的信息。

例如,如果一个字符具有 Letter 属性,这意味着这个字符归属于(任意语言的)一个字母表。而 Number 属性则表示这是一个数字:也许是阿拉伯语,亦或者是中文,等等。

我们可以查找具有某种属性的字符,写作 \p{…}。为了顺利使用 \p{…},一个正则表达式必须使用修饰符 u

举个例子,\p{Letter} 表示任何语言中的一个字母。我们也可以使用 \p{L},因为 LLetter 的一个别名(alias)。对于每种属性而言,几乎都存在对应的缩写别名。

在下面的例子中 3 种字母将会被查找出:英语、格鲁吉亚语和韩语。

例子1:

js
let str = "A ბ ㄱ";

console.log( str.match(/\p{L}/gu) ); // A,ბ,ㄱ
console.log( str.match(/\p{L}/g) ); // null(没有匹配的文本,因为没有修饰符“u”)

例子2:

js
let str = "A1ბ中ㄱa😄";

// 没有加后缀 u 所以,\p{L} ბ特殊字符匹配不到
console.log(str.match(/\w\d\p{L}/g)); // null

// 有后缀 u 之后 \p{L} ბ被匹配了出来
console.log(str.match(/\w\d\p{L}/gu)); // [ 'A1ბ' ]

以下是主要的字符类别和它们对应的子类别:

  1. 字母(Letter) L:
    1. 小写(lowercase) Ll
    2. 修饰(modifier) Lm,
    3. 首字母大写(titlecase) Lt,
    4. 大写(uppercase) Lu,
    5. 其它(other) Lo
  2. 数字(Number) N:
    1. 十进制数字(decimal digit) Nd,
    2. 字母数字(letter number) Nl,
    3. 其它(other) No
  3. 标点符号(Punctuation) P:
    1. 链接符(connector) Pc,
    2. 横杠(dash) Pd,
    3. 起始引用号(initial quote) Pi,
    4. 结束引用号(final quote) Pf,
    5. 开(open) Ps,
    6. 闭(close) Pe,
    7. 其它(other) Po
  4. 标记(Mark) M (accents etc):
    1. 间隔合并(spacing combining) Mc,
    2. 封闭(enclosing) Me,
    3. 非间隔(non-spacing) Mn
  5. 符号(Symbol) S:
    1. 货币(currency) Sc,
    2. 修饰(modifier) Sk,
    3. 数学(math) Sm,
    4. 其它(other) So
  6. 分隔符(Separator) Z:
    1. 行(line) Zl,
    2. 段落(paragraph) Zp,
    3. 空格(space) Zs
  7. 其它(Other) C:
    1. 控制符(control) Cc,
    2. 格式(format) Cf,
    3. 未分配(not assigned) Cn,
    4. 私有(private use) Co,
    5. 代理伪字符(surrogate) Cs

因此,比如说我们需要小写的字母,就可以写成 \p{Ll},标点符号写作 \p{P} 等等。

也有其它派生的类别,例如:

  • Alphabetic (Alpha), 包含了字母 L, 加上字母数字 Nl (例如 Ⅻ – 罗马数字 12),加上一些其它符号 Other_Alphabetic (OAlpha)。
  • Hex_Digit 包括 16 进制数字 0-9a-f
  • …等等

Unicode 支持相当数量的属性,列出整个清单需要占用大量的空间,因此在这里列出相关的链接:

实例

16进制数字

举个例子,让我们来查找 16 进制数字,写作 xFF 其中 F 是一个 16 进制的数字(0…9 或者 A…F)。

一个 16 进制数字可以表示为 \p{Hex_Digit}

js
let regexp = /x\p{Hex_Digit}\p{Hex_Digit}/u;

console.log("number: xAF".match(regexp)); // [ 'xAF', index: 8, input: 'number: xAF', groups: undefined ]

中文字符

让我们再来考虑中文字符。

有一个 unicode 属性 Script (一个书写系统),这个属性可以有一个值:CyrillicGreekArabicHan (中文)等等,这里是一个完整的列表

为了实现查找一个给定的书写系统中的字符,我们需要使用 Script=<value>,例如对于西里尔字符:\p{sc=Cyrillic}, 中文字符:\p{sc=Han},等等。

js
let regexp1 = /\p{sc=Han}/gu; // returns Chinese hieroglyphs
let regexp2 = /\p{sc=Cyrillic}/gu; // returns 西里尔字符 

let str = `Hello Привет 你好 123_456`;

console.log(str.match(regexp1)); // [ '你', '好' ]
console.log(str.match(regexp2)); // [ 'П', 'р', 'и', 'в', 'е', 'т' ]

货币

表示货币的字符,例如 $¥,具有 unicode 属性 \p{Currency_Symbol},缩写为 \p{Sc}

让我们使用这一属性来查找符合“货币,接着是一个数字”的价格文本:

js
let regexp = /\p{Sc}\d/gu;

let str = `Prices: $2, €1, ¥9`;

console.log(str.match(regexp)); // [ '$2', '€1', '¥9' ]

之后,在文章 量词 中我们将会了解如何查找包含很多位的数字。

总结

修饰符 u 在正则表达式中提供对 Unicode 的支持。

这意味着两件事:

  1. 4 个字节长的字符被以正确的方式处理:被看成单个的字符,而不是 2 个 2 字节长的字符。
  2. Unicode 属性可以被用于查找中 \p{…}

有了 unicode 属性我们可以查找给定语言中的词,特殊字符(引用,货币)等等。

参考

https://zh.javascript.info/regexp-unicode