五分钟系列-文本搜索工具grep

1️⃣核心功能

2️⃣基本语法

3️⃣常用选项 & 功能详解

4️⃣经典应用场景 & 示例

5️⃣重要的提示 & 技巧

6️⃣总结

grep 是 Linux/Unix 系统中功能强大的文本搜索工具，其名称源自 "Global Regular Expression Print"，用于在输入数据中匹配指定模式（字符串或正则表达式）并输出匹配行。

1️⃣核心功能

grep 的核心功能是：扫描给定的输入（文件或标准输入流），匹配指定的模式（可以是简单的字符串或复杂的正则表达式），然后将包含该模式的所有行打印（输出）出来。

2️⃣基本语法

grep [options] pattern [file...]

[options]: 控制 grep 行为的各种选项（标志）。
pattern: 要搜索的模式（字符串或正则表达式）。如果模式包含空格或 Shell 特殊字符（如 $, *, ?, | 等），通常需要用引号（' 或 "）括起来。
[file...]: 可选的一个或多个要搜索的文件。如果省略文件，grep 会从标准输入读取数据。

3️⃣常用选项 & 功能详解

基础搜索与显示：
- -i (或 --ignore-case): 忽略大小写。将模式中的字母视为不区分大小写进行匹配。 (例如：grep -i 'error' log.txt 会匹配 "Error", "ERROR", "error" 等)
- -v (或 --invert-match): 反向匹配。只打印 不匹配 模式的行。 (例如：grep -v 'debug' app.log 会显示所有 不包含 "debug" 的行)
- -n (或 --line-number): 显示行号。在每个匹配行前面加上它在文件中的行号。 (例如：grep -n 'warning' script.py)
- -c (或 --count): 计数。不显示匹配的行，仅显示匹配到的行数总和。
- -H (或 --with-filename), -h (或 --no-filename): 控制是否显示文件名。
  - -H: 总是在匹配行前显示文件名（默认在搜索多个文件时自动显示）。
  - -h: 从不显示文件名（在搜索单个文件时也抑制文件名，更干净）。
- --color (或 --color=auto, --color=always, --color=never): 彩色高亮。高亮显示匹配到的文本。auto 是常用且推荐的选项（仅当输出到终端时高亮）。
递归搜索 & 文件选择：
- -r (或 -R, --recursive): 递归搜索。递归地读取指定目录下的 所有文件（包括子目录）进行搜索。 (例如：grep -r 'functionName' /path/to/code/)
- --include=GLOB: 递归时包含文件。指定要包含的文件模式（通配符）。
  (例如：grep -r --include='*.c' 'TODO' . 只在当前目录（及子目录）的 .c 文件中搜索 "TODO")
- --exclude=GLOB: 递归时排除文件。指定要排除的文件模式。
  (例如：grep -r --exclude='*.log' 'error' . 排除所有 .log 文件)
- --exclude-dir=GLOB: 递归时排除目录。指定要排除的目录模式（非常重要，避免搜索如 .git, node_modules 等大目录）。
  (例如：grep -r --exclude-dir=.git 'pattern' .)
- -l (或 --files-with-matches): 仅显示文件名。只打印包含匹配项的文件名，不显示具体的匹配行。
- -L (或 --files-without-match): 仅显示不包含匹配的文件名。
模式匹配增强 (正则表达式)：
- 默认模式： grep 默认使用 基本正则表达式 (Basic Regular Expressions - BRE)。BRE 中，部分元字符（如 (), {}, |, +, ?）需要转义（加上 \）才能具有特殊含义。有些元字符（如 ., *, ^, $, [], [^]）本身就是特殊元字符。
  - 例 (BRE)： grep 'error\.' file（匹配 "error."，. 需要转义以匹配字面点；\ 在 BRE 中是元字符）
- -E (或 --extended-regexp): 启用扩展正则表达式 (Extended Regular Expressions - ERE)。ERE 允许直接使用 (), {}, |, +, ? 作为元字符（功能更丰富，通常更易读）。
  - 例 (ERE)： grep -E '(error|warning)' file（匹配 "error" 或 "warning"；| 不需要转义）
- -F (或 --fixed-strings): 固定字符串模式。将模式视为纯字符串而非正则表达式。所有字符都没有特殊含义。搜索速度快，适合搜索包含正则元字符的字面字符串。
  - 例： grep -F 'price: $19.99' file（直接搜索包含 $, . 等字符的字符串）
- -P (或 --perl-regexp): 启用 Perl 兼容正则表达式 (Perl-Compatible Regular Expressions - PCRE)。提供 Perl 语言级别的强大正则功能（如 \d, \s, \b, 非贪婪匹配 .*?, 前向/后向断言等）。注意：并非所有系统/版本默认支持 -P。
  - 例 (PCRE)： grep -P '\bthe\b' file（匹配单词 "the"，使用 \b 单词边界；BRE/ERE 通常用 \<the\> 或 -w）
- -w (或 --word-regexp): 匹配整个单词。模式只匹配由非单词字符（如空格、标点、行首/行尾）包围的完整单词。
  - 例： grep -w 'is' file 会匹配 "This is it" 中的 "is" 单词，但不会匹配 "This" 或 "island" 中的 "is" 部分。
- -x (或 --line-regexp): 匹配整行。要求整行内容完全等于给定的模式。
输出控制：
- -m NUM (或 --max-count=NUM): 最大匹配数。一旦在文件（或标准输入）中找到 NUM 个匹配行即停止搜索。
- -A NUM (或 --after-context=NUM): 显示匹配行之后的行。额外显示匹配行之后的 NUM 行上下文。
- -B NUM (或 --before-context=NUM): 显示匹配行之前的行。额外显示匹配行之前的 NUM 行上下文。
- -C NUM (或 --context=NUM): 显示匹配行上下的行。同时显示匹配行前后各 NUM 行上下文 (等价于 -A NUM -B NUM)。
- -o (或 --only-matching): 仅显示匹配部分。不显示整行，只显示每行中匹配到模式的那部分内容。在匹配复杂模式并提取特定字符串时非常有用。
- -s (或 --no-messages): 抑制错误消息。不显示关于不存在或无权限文件的错误消息。
- -a (或 --text): 将二进制文件当作文本处理。强制 grep 像处理文本一样处理二进制文件（否则可能输出乱码或根本不处理）。
- -z (或 --null-data): 使用 NUL 字符分隔数据。将输入视为由 NUL 字符（\0）分隔的记录，而不是由换行符分隔。这对于搜索包含换行符的多行文本块非常有用（通常与 -o 或特定模式结合）。输出时也会用 NUL 分隔匹配项（常用于 xargs -0）。

4️⃣经典应用场景 & 示例

在文件中搜索关键词：

grep 'important_thing' report.txt  # 在 report.txt 中查找包含 'important_thing' 的行
grep -i 'critical' system.log     # 在 system.log 中忽略大小写查找 'critical'

结合管道 (|) 过滤命令输出：

ps aux | grep 'firefox'         # 查找包含 'firefox' 的进程
dmesg | grep -i 'error'         # 在系统日志中查找错误
ls -l | grep 'Dec'              # 查看十二月份修改过的文件 (文件名包含Dec)

递归搜索目录：

grep -r 'TODO' ~/projects/       # 在 ~/projects 及其子目录的所有文件中查找 "TODO"
# 更精确的递归搜索 (限定文件类型，排除目录)
grep -r --include='*.py' --exclude-dir='__pycache__' 'def my_function' ./src/

统计匹配行数：

grep -c 'success' app.log       # 统计 'app.log' 中 'success' 出现的行数

查找不匹配的行：

grep -v '#' /etc/config.conf   # 显示配置文件 /etc/config.conf 中所有非注释行

查找并显示上下文：

grep -C 5 'Exception' error.log  # 在 'error.log' 中找 'Exception' 并显示它前后各5行

搜索整个单词：

grep -w 'get' source.c         # 在 'source.c' 中只匹配单词 "get"，不匹配 "target"

仅提取匹配部分：

echo 'My IP is 192.168.1.100' | grep -Eo '[0-9]+\.[0-9]+\.[0-9]+\.[0-9]+' # 提取 IP 地址

使用扩展正则表达式匹配多个模式：

grep -E 'error|fail|fatal' log.txt  # 在 'log.txt' 中查找包含 'error', 'fail' 或 'fatal' 的行

5️⃣重要的提示 & 技巧

引号保护模式： 如果模式包含空格或特殊字符（如 $, *, ?, |, (, ) 等），强烈建议用单引号 ' 将模式括起来，防止 Shell 解释这些字符。双引号 " 也行，但需要更小心 $ 和 ! 等字符。
默认行为差异： 当指定文件时，grep 会搜索文件内容。当没有文件参数或使用管道时，grep 会搜索来自前一个命令的标准输出。
正则表达式威力： grep 的强大主要源于其正则表达式支持。花时间学习 BRE/ERE/PCRE 语法会大大提升你的搜索能力。许多 grep 手册页（man grep）中有专门的正则表达式部分。
处理特殊字符： 如果要精确匹配包含正则元字符的字面字符串（例如 $），使用 -F（固定字符串模式）或者用 \ 转义元字符（在 BRE 中）。
egrep 和 fgrep 的演变： 过去 egrep 等价于 grep -E，fgrep 等价于 grep -F。现在 grep -E 和 grep -F 是更标准的写法，通常建议避免使用 egrep/fgrep 命令。
性能考量：
- -F 比使用正则表达式快得多。
- grep -v 通常也比更复杂的正向模式过滤快。
- 在递归搜索 (-r) 时，明智地使用 --include, --exclude, --exclude-dir 可以大幅减少文件扫描数量，极大提升速度，尤其在大项目中。
- 避免在管道链的开头使用 cat file | grep pattern，直接 grep pattern file 效率更高（少一个进程）。

6️⃣总结

grep 是 Linux/Unix 命令行工具箱中不可或缺的瑞士军刀。掌握 grep 及其丰富的选项，特别是正则表达式的使用，能够让你在海量文本中快速、精确地定位所需信息，大幅提高命令行工作效率和文本处理能力。无论你是系统管理员、开发人员还是数据分析师，熟练运用 grep 都是必备的基础技能。