算法精讲--正则表达式（二）：分组、引用与高级匹配技术

算法精讲–正则表达式（二）：分组、引用与高级匹配技术 🚀

正则表达式的真正力量在于组合使用各种语法元素，创造出强大而精确的匹配模式！

—— 作者：无限大

推荐阅读时间：25 分钟

适用人群：已掌握基础正则语法，希望提升实战能力的开发者

引言：从基础到组合的飞跃 🚀

在《算法精讲–正则表达式（一）》中，我们学习了正则表达式的基础知识：字符匹配、量词和位置匹配。这些是构建正则表达式的基石，但真正让正则表达式发挥强大威力的是组合使用这些基础元素。

想象一下，基础语法就像字母表中的字母，而组合技巧则是将这些字母组成单词、句子和段落的语法规则。只有掌握了组合技巧，你才能真正用正则表达式解决复杂的文本处理问题。

本章将带你探索正则表达式的组合艺术–分组与引用，让你从正则表达式的初学者蜕变为匹配大师！

分组与引用：结构化匹配的艺术 🔄

1.1 什么是分组？为什么需要分组？

分组（Grouping） 是正则表达式中用于将多个字符或子表达式组合为一个逻辑单元的机制，通过圆括号 () 实现。分组的主要作用包括：

逻辑组合：将多个元素视为一个整体进行操作（如应用量词）
捕获数据：提取匹配结果中的特定部分
模式分支：通过 | 实现多个可选模式
引用匹配：在表达式内部或替换操作中引用已匹配的内容

没有分组，正则表达式将无法处理复杂的结构化文本匹配。想象一下，如果不能将 ab 组合为一个整体，我们将无法匹配重复出现的 ab 序列。

1.2 分组的类型

1.2.1 捕获组：提取匹配的子串 🎯

捕获组（Capturing Group） 是正则表达式中最强大的组合工具之一，它允许你将匹配的部分内容保存到临时变量中，以便后续使用。使用圆括号 () 可以创建捕获组。

基本语法与工作原理

(表达式)例：ab+c，只能匹配abc、abbc、ababcb等(ab)+c，可以匹配abc、ababc、abababc等

实用示例

示例 1：提取日期中的年、月、日

// 匹配格式为 yyyy-mm-dd 的日期
const dateRegex = /(d{4})-(d{2})-(d{2})/;
const date = "2023-12-25";
const result = date.match(dateRegex);console.log(result[0]); // 输出: 2023-12-25 (整个匹配)
console.log(result[1]); // 输出: 2023 (第一个捕获组: 年)
console.log(result[2]); // 输出: 12 (第二个捕获组: 月)
console.log(result[3]); // 输出: 25 (第三个捕获组: 日)

示例 2：交换姓名顺序

import re# 将 "姓, 名" 格式转换为 "名 姓"
name = "Doe, John"
# 使用 1 和 2 引用第一个和第二个捕获组
formatted_name = re.sub(r'(w+), (w+)', r'2 1', name)print(formatted_name)  # 输出: John Doe

1.2.2 非捕获组：提高性能的技巧 ⚡

当你只需要对表达式进行分组，而不需要捕获匹配结果时，可以使用非捕获组（Non-capturing Group）。非捕获组不会创建编号的引用（即不参与组计数，仅用于分组匹配，不会存储匹配结果）从而提高性能并避免不必要的内存占用。

基本语法

(?:表达式)

实用示例

区分捕获组与非捕获组

import java.util.regex.Matcher;
import java.util.regex.Pattern;public class GroupExample {public static void main(String[] args) {String text = "apple,banana,orange";// 使用捕获组Pattern capturePattern = Pattern.compile("(apple),(banana)");Matcher captureMatcher = capturePattern.matcher(text);if (captureMatcher.find()) {System.out.println("捕获组数量: " + captureMatcher.groupCount()); // 输出: 2}// 使用非捕获组Pattern nonCapturePattern = Pattern.compile("(?:apple),(?:banana)");Matcher nonCaptureMatcher = nonCapturePattern.matcher(text);if (nonCaptureMatcher.find()) {System.out.println("非捕获组数量: " + nonCaptureMatcher.groupCount()); // 输出: 0}}
}

1.2.3 命名捕获组：提高可读性的高级技巧 🏷️

随着正则表达式变得复杂，仅靠数字引用捕获组会降低代码的可读性。命名捕获组（Named Capturing Group） 允许你为捕获组分配名称，使正则表达式更易于理解和维护。

基本语法

(?<名称>表达式)

引用命名捕获组的语法因语言而异：

在 JavaScript 中：k<名称> 或 $<名称>
在 Python 中：(?P=名称) 或通过 group('名称') 方法
在 Java 中：k<名称> 或 group('名称') 方法

实用示例

使用命名捕获组解析 URL

// 定义正则表达式，用于匹配和解析URL结构。正则表达式使用命名捕获组（如?<protocol>）标识关键部分。
// ^ 表示字符串起始；(?<protocol>https?) 匹配协议（http或https，s为可选）[[2]]；
// :// 是固定分隔符；(?<domain>[^/]+) 匹配域名（非斜杠字符序列，直到遇到斜杠或结束）；
// (?<path>/.*)? 匹配路径（以斜杠开头的任意字符序列，?表示路径可选）[[5]]；$ 表示字符串结束。
const urlRegex = /^(?<protocol>https?)://(?<domain>[^/]+)(?<path>/.*)?$/;// 示例URL字符串，包含协议、域名和路径（含查询参数）
const url = "https://www.example.com/path/to/resource?query=1";// 使用match方法执行正则匹配，返回结果对象。result.groups属性存储命名捕获组的值[[8]]。
const result = url.match(urlRegex);// 输出协议部分：result.groups.protocol访问命名组，匹配"https"（s被捕获）[[2]]
console.log(result.groups.protocol); // 输出: https// 输出域名部分：result.groups.domain访问命名组，匹配"www.example.com"（域名不含斜杠）[[5]]
console.log(result.groups.domain); // 输出: www.example.com// 输出路径部分：result.groups.path访问命名组，匹配"/path/to/resource?query=1"（包含查询参数）[[9]]
console.log(result.groups.path); // 输出: /path/to/resource?query=1

1.3 分组引用：复用匹配结果 🔄

分组引用允许你在正则表达式中或替换操作中复用前面捕获组匹配的内容，极大增强了模式匹配的灵活性和强大性。主要包括以下几种类型：

1.3.1 反向引用：匹配重复文本

反向引用（Backreference） 允许你引用前面捕获组匹配的内容，这对于匹配重复出现的文本模式特别有用。

基本语法：

数字反向引用：\n (n 是捕获组编号)
命名反向引用：\k<名称> 或 (?P=name),后面的内容是 py 专属语法

示例 1：匹配重复的单词

// 定义待检测文本（包含重复单词 "is is" 和 "test test"）
const text = "This is is a test test.";// 正则表达式：\b(\w+)\s+\1\b
// - \b：单词边界，确保匹配完整单词
// - (\w+)：捕获组1，匹配一个或多个字母/数字/下划线（单词内容）
// - \s+：匹配一个或多个空白字符（如空格）
// - \1：反向引用，指向捕获组1匹配的内容（要求后续内容与组1完全相同）
// - g：全局匹配模式
const duplicateRegex = /\b(\w+)\s+\1\b/g;// 执行匹配：返回所有符合正则的子串数组
const result = text.match(duplicateRegex);
console.log(result); // 输出: [ 'is is', 'test test' ]

示例 2：匹配 HTML 标签对

import re# 定义 HTML 字符串（含成对的 div 和 p 标签）
html = "<div>这是一个 div 标签</div><p>这是一个 p 标签</p>"# 正则表达式：<(?P<tag>\w+)>.*?</(?P=tag)>
# - (?P<tag>\w+)：命名捕获组 "tag"，匹配标签名（如 "div"）
# - .*?：非贪婪匹配标签间任意内容
# - (?P=tag)：命名反向引用，要求结束标签名与 "tag" 组相同
pattern = r'<(?P<tag>\w+)>.*?</(?P=tag)>'# 执行匹配：返回所有标签名的列表（仅返回捕获组内容）
matches = re.findall(pattern, html)
print(matches)  # 输出: ['div', 'p']

1.3.2 替换引用：在替换中使用捕获内容

在替换操作中，可以使用特殊语法引用捕获组的内容，实现文本转换和重组。

不同语言中的替换引用语法：

JavaScript: $n 或 ${n} (数字引用), $<name> (命名引用)
Python: n (数字引用), (?P=name) (命名引用)
Java: $n (数字引用), ${name} (命名引用)

示例：格式化日期

// 将 yyyy-mm-dd 格式转换为 mm/dd/yyyy 格式
const date = "2023-12-25";
// 使用 $2 和 $3 引用月和日，$1 引用年
const formattedDate = date.replace(/(\d{4})-(\d{2})-(\d{2})/, "$2/$3/$1");console.log(formattedDate); // 输出: 12/25/2023

1.4 分组的高级应用 🚀

条件表达式：基于捕获组的条件匹配 🧩

条件表达式（Conditional Expression） 允许根据前面的捕获组是否匹配来决定应用哪个模式。

基本语法：

(?(组号或名称)匹配成功时的模式|匹配失败时的模式)

示例：处理可选的引号

import retext = 'name=John name="Doe"'# 正则表达式分解：
# 1. name= : 匹配字面量
# 2. (?:...) : 非捕获组，表示两种匹配可能
# 3. "(?P<quoted>[^"]+)" : 带引号的情况
#    - " : 匹配开头的引号
#    - (?P<quoted>[^"]+) : 命名捕获组，匹配除"外的任意字符（至少1个）
#    - " : 匹配结尾的引号
# 4. | : 或逻辑
# 5. (?P<unquoted>\w+) : 不带引号的情况
#    - \w+ : 匹配字母/数字/下划线（至少1个）
pattern = r'name=(?:"(?P<quoted>[^"]+)"|(?P<unquoted>\w+))'# 使用finditer获取所有匹配的迭代器对象（保持匹配顺序）
matches = re.finditer(pattern, text)for match in matches:# 优先检查带引号的分组（因为正则中带引号的模式在前）if match.group('quoted'):# 当quoted分组有匹配内容时，输出带引号的值print(f'带引号的值: {match.group("quoted")}')  # 注意使用双引号避免冲突else:# 当unquoted分组有匹配内容时，输出普通值print(f'不带引号的值: {match.group("unquoted")}')# 输出逻辑说明：
# 第一个匹配 name=John → 触发unquoted分组
# 第二个匹配 name="Doe" → 触发quoted分组（Doe被[^"]+捕获）