简体中文 ▾ 主题 ▾ 最新版本 ▾ gitattributes 最后更新于 2.50.0

名称

gitattributes - 按路径定义属性

概要

$GIT_DIR/info/attributes, .gitattributes

描述

gitattributes 文件是一个简单的文本文件,用于为路径名赋予 attributes(属性)。

gitattributes 文件中的每一行都符合以下格式:

pattern attr1 attr2 ...

即一个模式(pattern)后跟一组属性列表,用空格分隔。忽略行首和行尾的空格。以 # 开头的行会被忽略。以双引号开头的模式按 C 风格进行转义。当模式匹配所讨论的路径时,该行中列出的属性将赋予该路径。

对于给定的路径,每个属性可以处于以下状态之一:

已设置 (Set)

该路径具有特殊值 "true" 的属性;这通过在属性列表中仅列出属性名称来指定。

未设置 (Unset)

该路径具有特殊值 "false" 的属性;这通过在属性列表中列出带有破折号 - 前缀的属性名称来指定。

设置为一个值 (Set to a value)

该路径具有指定的字符串值属性;这通过在属性列表中列出属性名称,后跟等号 = 及其值来指定。

未指定 (Unspecified)

如果没有模式匹配该路径,且没有说明该路径是否具有该属性,则称该路径的属性为“未指定”。

当多个模式匹配路径时,后面的行会覆盖前面的行。这种覆盖是针对每个属性独立进行的。

模式匹配路径的规则与 .gitignore 文件中的规则相同(参见 gitignore[5]),但有少数例外:

  • 禁止使用否定模式(negative patterns)

  • 匹配目录的模式不会递归地匹配该目录内的路径(因此在属性文件中使用带尾部斜杠的 path/ 语法是没有意义的;请改用 path/**

在确定分配给路径的属性时,Git 会咨询 $GIT_DIR/info/attributes 文件(优先级最高)、路径所在目录下的 .gitattributes 文件,以及其直到工作树顶层的父目录(包含 .gitattributes 的目录离路径越远,优先级越低)。最后考虑全局和系统级文件(它们的优先级最低)。

当工作树中缺少 .gitattributes 文件时,将使用索引(index)中的路径作为备选。在检出(checkout)过程中,会使用索引中的 .gitattributes,然后将工作树中的文件用作备选。

如果您希望仅影响单个仓库(即为特定于该仓库用户工作流的文件分配属性),则应将属性放在 $GIT_DIR/info/attributes 文件中。应该受版本控制并分发到其他仓库的属性(即所有用户都感兴趣的属性)应放入 .gitattributes 文件中。应影响单个用户所有仓库的属性应放在由 core.attributesFile 配置选项指定的文件中(见 git-config[1])。其默认值为 $XDG_CONFIG_HOME/git/attributes。如果 $XDG_CONFIG_HOME 未设置或为空,则使用 $HOME/.config/git/attributes。系统所有用户的属性应放在 $(prefix)/etc/gitattributes 文件中。

有时您需要将路径的属性设置覆盖为 Unspecified(未指定)状态。这可以通过列出带有感叹号 ! 前缀的属性名称来实现。

保留的 BUILTIN_* 属性

builtin_* 是为内置属性值保留的命名空间。该命名空间下任何用户定义的属性都将被忽略并触发警告。

builtin_objectmode

此属性用于按文件位模式(40000, 120000, 160000, 100755, 100644)过滤文件。例如 :(attr:builtin_objectmode=160000)。您也可以使用 git check-attr builtin_objectmode -- <file> 检查这些值。如果对象不在索引中,git check-attr --cached 将返回 unspecified。

效果

通过为路径分配特定属性,可以影响 Git 的某些操作。目前,以下操作是属性感知的。

检出和检入

这些属性影响在运行 git switchgit checkoutgit merge 等命令时,存储在仓库中的内容如何复制到工作树文件。它们还影响在执行 git addgit commit 时,Git 如何将您在工作树中准备的内容存储到仓库中。

text

此属性将路径标记为文本文件,从而启用换行符转换:当匹配的文件添加到索引时,文件的换行符会在索引中标准化为 LF。反之,当文件从索引复制到工作目录时,其换行符可能会根据 eol 属性、Git 配置和平台转换为 CRLF(见下文对 eol 的解释)。

已设置 (Set)

在路径上设置 text 属性会如上所述在检入和检出时启用换行符转换。每次检入文件时,换行符都会在索引中标准化为 LF,即使该文件之前是以 CRLF 换行符添加到 Git 的。

未设置 (Unset)

取消路径上的 text 属性设置会告诉 Git 在检入或检出时不要尝试任何换行符转换。

设置为字符串值 "auto"

text 设置为 "auto" 时,Git 会自行决定文件是文本还是二进制。如果是文本且该文件尚未以 CRLF 结尾存在于 Git 中,则如上所述在检入和检出时转换换行符。否则,在检入或检出时不进行转换。

未指定 (Unspecified)

如果未指定 text 属性,Git 使用 core.autocrlf 配置变量来确定是否应转换文件。

任何其他值都会导致 Git 表现得就像 text 被保留为未指定一样。

eol

此属性标记路径在检出到工作树时使用特定的换行符样式。它仅在设置了 texttext=auto 时才有效(见上文),但如果 text 被保留为未指定,指定 eol 会自动设置 text

设置为字符串值 "crlf"

此设置在检出文件时将工作目录中文件的换行符转换为 CRLF。

设置为字符串值 "lf"

此设置在检出文件时使工作目录中使用与索引中相同的换行符。

未指定 (Unspecified)

如果文件的 eol 属性未指定,其在工作目录中的换行符由 core.autocrlfcore.eol 配置变量确定(见 git-config[1] 中这些选项的定义)。如果设置了 text 但未设置这两个变量,则 Windows 上的默认值为 eol=crlf,而所有其他平台上的默认值为 eol=lf

crlf 属性的向后兼容性

为了向后兼容,crlf 属性被解释如下:

crlf		text
-crlf		-text
crlf=input	eol=lf

换行符转换

虽然 Git 通常不触动文件内容,但可以将其配置为在仓库中将换行符标准化为 LF,并可选地在检出文件时将其转换为 CRLF。

如果您只是想在工作目录中拥有 CRLF 换行符,而不管您正在使用的仓库如何,您可以设置配置变量 "core.autocrlf" 而不使用任何属性。

[core]
	autocrlf = true

这不会强制标准化文本文件,但会确保您引入仓库的文本文件在添加时将其换行符标准化为 LF,并且仓库中已经标准化的文件保持标准化。

如果您想确保任何贡献者引入仓库的文本文件都进行了换行符标准化,您可以为 所有 文件将 text 属性设置为 "auto"。

*	text=auto

这些属性允许对换行符的转换方式进行细粒度控制。这里有一个例子,它将使 Git 标准化 .txt、.vcproj 和 .sh 文件,确保 .vcproj 文件在工作目录中具有 CRLF,而 .sh 文件具有 LF,并防止 .jpg 文件被标准化,无论其内容如何。

*               text=auto
*.txt		text
*.vcproj	text eol=crlf
*.sh		text eol=lf
*.jpg		-text
注意
在跨平台项目中使用推送和拉取到中央仓库并启用了 text=auto 转换时,包含 CRLF 的文本文件应该被标准化。

从干净的工作目录开始:

$ echo "* text=auto" >.gitattributes
$ git add --renormalize .
$ git status        # Show files that will be normalized
$ git commit -m "Introduce end-of-line normalization"

如果 git status 中显示了任何不应标准化的文件,请在运行 git add -u 之前取消它们的 text 属性设置。

manual.pdf	-text

相反,Git 未检测到的文本文件可以手动启用标准化。

weirdchars.txt	text

如果 core.safecrlf 设置为 "true" 或 "warn",Git 会验证当前 core.autocrlf 设置下的转换是否可逆。对于 "true",Git 拒绝不可逆转换;对于 "warn",Git 仅打印警告但接受不可逆转换。这种安全机制触发以防止对工作树中的文件进行此类转换,但有几个例外。尽管……

  • git add 本身不触动工作树中的文件,但下一次检出会触动,因此安全机制会触发;

  • 使用补丁更新文本文件的 git apply 确实会触动工作树中的文件,但该操作是关于文本文件的,而 CRLF 转换是关于修复换行符不一致的,因此安全机制不会触发;

  • git diff 本身不触动工作树中的文件,它通常是为了检查您打算下一次执行 git add 的更改。为了及早发现潜在问题,安全机制会触发。

working-tree-encoding

Git 将以 ASCII 或其超集(例如 UTF-8、ISO-8859-1,……)编码的文件识别为文本文件。以某些其他编码(例如 UTF-16)编码的文件被解释为二进制,因此内置的 Git 文本处理工具(例如 git diff)以及大多数 Git Web 前端默认不可视化这些文件的内容。

在这些情况下,您可以使用 working-tree-encoding 属性告诉 Git 工作目录中文件的编码。如果将具有此属性的文件添加到 Git,则 Git 会将内容从指定的编码重新编码为 UTF-8。最后,Git 将 UTF-8 编码的内容存储在其内部数据结构(称为“索引”)中。在检出时,内容会被重新编码回指定的编码。

请注意,使用 working-tree-encoding 属性可能会有一些陷阱:

  • 替代 Git 实现(例如 JGit 或 libgit2)和较旧的 Git 版本(截至 2018 年 3 月)不支持 working-tree-encoding 属性。如果您决定在仓库中使用 working-tree-encoding 属性,那么强烈建议确保所有使用该仓库的客户端都支持它。

    例如,Microsoft Visual Studio 资源文件 (*.rc) 或 PowerShell 脚本文件 (*.ps1) 有时以 UTF-16 编码。如果您将 *.ps1 文件声明为 UTF-16,并使用启用 working-tree-encoding 的 Git 客户端添加 foo.ps1,那么 foo.ps1 内部将以 UTF-8 存储。不支持 working-tree-encoding 的客户端将检出 foo.ps1 为 UTF-8 编码文件。这通常会给该文件的用户带来麻烦。

    如果不支持 working-tree-encoding 属性的 Git 客户端添加了一个新文件 bar.ps1,那么 bar.ps1 内部将“按原样”存储(在此示例中可能是 UTF-16)。具有 working-tree-encoding 支持的客户端将内部内容解释为 UTF-8,并尝试在检出时将其转换为 UTF-16。该操作将失败并导致错误。

  • 将内容重新编码为非 UTF 编码可能会导致错误,因为转换可能不是 UTF-8 往返安全的。如果您怀疑您的编码不是往返安全的,请将其添加到 core.checkRoundtripEncoding 中以使 Git 检查往返编码(见 git-config[1])。已知 SHIFT-JIS(日本字符集)与 UTF-8 存在往返问题,默认会进行检查。

  • 重新编码内容需要资源,这可能会减慢某些 Git 操作(例如 git checkoutgit add)。

仅当您无法以 UTF-8 编码存储文件,并且希望 Git 能够将内容作为文本处理时,才使用 working-tree-encoding 属性。

例如,如果您的 *.ps1 文件是带字节顺序标记 (BOM) 的 UTF-16 编码,并且您希望 Git 根据您的平台执行自动换行符转换,请使用以下属性。

*.ps1		text working-tree-encoding=UTF-16

如果您的 *.ps1 文件是不带 BOM 的 UTF-16 小端编码,并且您希望 Git 在工作目录中使用 Windows 换行符,请使用以下属性(如果您想要带 BOM 的 UTF-16 小端,请使用 UTF-16LE-BOM 而不是 UTF-16LE)。请注意,强烈建议在使用 working-tree-encoding 属性时显式使用 eol 定义换行符,以避免歧义。

*.ps1		text working-tree-encoding=UTF-16LE eol=crlf

您可以使用以下命令获取平台上所有可用编码的列表:

iconv --list

如果您不知道文件的编码,可以使用 file 命令来猜测编码:

file foo.ps1

ident

当为路径设置了属性 ident 时,Git 会在检出时将 blob 对象中的 $Id$ 替换为 $Id:,后跟 40 位十六进制 blob 对象名,再后跟美元符号 $。工作树文件中任何以 $Id: 开头并以 $ 结尾的字节序列在检入时都会被替换回 $Id$

filter

filter 属性可以设置为在配置中指定的过滤器驱动程序的字符串名称。

过滤器驱动程序由 clean 命令和 smudge 命令组成,两者都可以不指定。检出时,如果指定了 smudge 命令,该命令会从其标准输入中获取 blob 对象,其标准输出用于更新工作树文件。类似地,clean 命令用于在检入时转换工作树文件的内容。默认情况下,这些命令仅处理单个 blob 并终止。如果使用长时间运行的 process 过滤器代替 clean 和/或 smudge 过滤器,那么 Git 可以在单个 Git 命令的整个生命周期(例如 git add --all)中,通过单次调用过滤器命令处理所有 blob。如果配置了长效 process 过滤器,它总是优先于配置的单 blob 过滤器。有关用于与 process 过滤器通信的协议的说明,请参见下文。

内容过滤的一种用途是将内容调整为更适合平台、文件系统和用户使用的形状。对于这种操作模式,这里的关键词是“更方便”,而不是“将不可用的东西变成可用的”。换句话说,其意图是,如果有人取消了过滤器驱动程序定义,或者没有适当的过滤器程序,项目仍应是可用的。

内容过滤的另一种用途是存储无法直接在仓库中使用的内容(例如,引用存储在 Git 外部的真实内容的 UUID,或加密的内容),并在检出时将其转换为可用形式(例如,下载外部内容或解密加密内容)。

这两个过滤器的行为不同,默认情况下,过滤器被视为前者,即把内容加工成更方便的形状。配置中缺少的过滤器驱动程序定义,或以非零状态退出的过滤器驱动程序,不是错误,而是使过滤器变成空操作直通。

通过将 filter.<driver>.required 配置变量设置为 true,您可以声明过滤器将本身不可用的内容转换为可用的内容。

注意:每当 clean 过滤器发生更改时,仓库都应重新标准化:$ git add --renormalize .

例如,在 .gitattributes 中,您可以为路径分配 filter 属性。

*.c	filter=indent

然后,您可以在 .git/config 中定义 "filter.indent.clean" 和 "filter.indent.smudge" 配置,以指定一对命令,在检入源文件(运行 "clean")和检出(由于命令是 "cat" 故不进行更改)时修改 C 程序的内容。

[filter "indent"]
	clean = indent
	smudge = cat

为了获得最佳效果,如果运行两次,clean 不应进一步更改其输出("clean→clean" 应等同于 "clean"),并且多个 smudge 命令不应更改 clean 的输出("smudge→smudge→clean" 应等同于 "clean")。请参阅下面关于合并的部分。

"indent" 过滤器在这方面表现良好:它不会修改已经正确缩进的输入。在这种情况下,缺少 smudge 过滤器意味着 clean 过滤器 必须 接受它自己的输出而不进行修改。

如果过滤器 必须 成功才能使存储的内容可用,您可以在配置中声明该过滤器是 required(必需的):

[filter "crypt"]
	clean = openssl enc ...
	smudge = openssl enc -d ...
	required

过滤器命令行中的序列 "%f" 会替换为过滤器正在处理的文件名。过滤器可能会在关键字替换中使用它。例如:

[filter "p4"]
	clean = git-p4-filter --clean %f
	smudge = git-p4-filter --smudge %f

请注意,"%f" 是正在处理的路径名。根据正在过滤的版本,磁盘上对应的文件可能不存在,或者可能有不同的内容。因此,smudge 和 clean 命令不应尝试访问磁盘上的文件,而应仅作为对标准输入提供的内容的过滤器。

长效过滤器进程

如果过滤器命令(字符串值)是通过 filter.<driver>.process 定义的,那么 Git 可以在单个 Git 命令的整个生命周期内通过单次调用过滤器处理所有 blob。这是通过使用长效进程协议实现的(在 Documentation/technical/long-running-process-protocol.adoc 中描述)。

当 Git 遇到第一个需要 clean 或 smudge 的文件时,它会启动过滤器并执行握手。在握手中,Git 发送的欢迎消息是 "git-filter-client",仅支持版本 2,支持的功能是 "clean"、"smudge" 和 "delay"。

随后,Git 发送一组以 flush 数据包结尾的 "key=value" 键值对列表。该列表将至少包含过滤器命令(基于支持的功能)和相对于仓库根目录要过滤的文件路径名。在 flush 数据包之后,Git 会立即发送拆分为零个或多个 pkt-line 数据包的内容,并以 flush 数据包结束内容。请注意,过滤器在接收到内容和最终 flush 数据包之前,不得发送任何响应。另请注意,"key=value" 键值对的 "value" 可以包含 "=" 字符,而键永远不会包含该字符。

packet:          git> command=smudge
packet:          git> pathname=path/testfile.dat
packet:          git> 0000
packet:          git> CONTENT
packet:          git> 0000

预期过滤器以一个以 flush 数据包结束的 "key=value" 键值对列表进行响应。如果过滤器没有遇到问题,该列表必须包含 "success" 状态。在这些数据包之后,预期过滤器以零个或多个 pkt-line 数据包发送内容,最后以一个 flush 数据包结束。最后,预期第二个以 flush 数据包结束的 "key=value" 列表。过滤器可以在第二个列表中更改状态,或保持状态不变(使用空列表)。请注意,无论如何空列表都必须以 flush 数据包结束。

packet:          git< status=success
packet:          git< 0000
packet:          git< SMUDGED_CONTENT
packet:          git< 0000
packet:          git< 0000  # empty list, keep "status=success" unchanged!

如果结果内容为空,则预期过滤器响应 "success" 状态和 flush 数据包以发出空内容信号。

packet:          git< status=success
packet:          git< 0000
packet:          git< 0000  # empty content!
packet:          git< 0000  # empty list, keep "status=success" unchanged!

如果过滤器不能或不想处理内容,则预期它返回 "error" 状态。

packet:          git< status=error
packet:          git< 0000

如果过滤器在处理过程中遇到错误,它可以在内容(部分或全部)发送后发送 "error" 状态。

packet:          git< status=success
packet:          git< 0000
packet:          git< HALF_WRITTEN_ERRONEOUS_CONTENT
packet:          git< 0000
packet:          git< status=error
packet:          git< 0000

如果过滤器在 Git 进程的生命周期内既不能也不想处理该内容以及任何未来的内容,则预期它在协议的任何点响应 "abort" 状态。

packet:          git< status=abort
packet:          git< 0000

如果设置了 "error"/"abort" 状态,Git 既不会停止也不会重新启动过滤器进程。但是,Git 会根据 filter.<driver>.required 标志设置其退出代码,模拟 filter.<driver>.clean / filter.<driver>.smudge 机制的行为。

如果过滤器在通信期间死亡或不遵守协议,Git 将停止过滤器进程,并在处理下一个需要处理的文件时重新启动它。根据 filter.<driver>.required 标志,Git 会将其解释为错误。

延迟 (Delay)

如果过滤器支持 "delay" 功能,那么 Git 可以在过滤器命令和路径名之后发送标志 "can-delay"。此标志表示过滤器可以通过响应无内容、状态为 "delayed" 和一个 flush 数据包来延迟过滤当前 blob(例如,以补偿网络延迟)。

packet:          git> command=smudge
packet:          git> pathname=path/testfile.dat
packet:          git> can-delay=1
packet:          git> 0000
packet:          git> CONTENT
packet:          git> 0000
packet:          git< status=delayed
packet:          git< 0000

如果过滤器支持 "delay" 功能,那么它必须支持 "list_available_blobs" 命令。如果 Git 发送此命令,那么预期过滤器将返回代表先前已延迟且现在可用的 blob 的路径名列表。列表必须以 flush 数据包结束,后跟同样以 flush 数据包结束的 "success" 状态。如果延迟路径的 blob 尚不可用,则预期过滤器阻塞响应,直到至少有一个 blob 可用。过滤器可以通过发送空列表告诉 Git 它没有更多的延迟 blob。一旦过滤器响应空列表,Git 就会停止询问。此时 Git 尚未接收到的所有 blob 都被视为丢失,并将导致错误。

packet:          git> command=list_available_blobs
packet:          git> 0000
packet:          git< pathname=path/testfile.dat
packet:          git< pathname=path/otherfile.dat
packet:          git< 0000
packet:          git< status=success
packet:          git< 0000

Git 收到路径名后,将再次请求相应的 blob。这些请求包含一个路径名和一个空内容部分。预期过滤器以常规方式响应经过 smudge 处理的内容,如上所述。

packet:          git> command=smudge
packet:          git> pathname=path/testfile.dat
packet:          git> 0000
packet:          git> 0000  # empty content!
packet:          git< status=success
packet:          git< 0000
packet:          git< SMUDGED_CONTENT
packet:          git< 0000
packet:          git< 0000  # empty list, keep "status=success" unchanged!

示例

长效过滤器演示实现可以在 Git 核心仓库的 contrib/long-running-filter/example.pl 中找到。如果您开发自己的长效过滤器进程,那么 GIT_TRACE_PACKET 环境变量对于调试非常有帮助(见 git[1])。

请注意,您不能将现有的 filter.<driver>.cleanfilter.<driver>.smudge 命令与 filter.<driver>.process 一起使用,因为前两者使用的进程间通信协议与后者不同。

检入/检出属性之间的交互

在检入代码路径中,工作树文件首先由 filter 驱动程序转换(如果已指定并定义了相应的驱动程序),然后结果由 ident 处理(如果已指定),最后由 text 处理(如果已指定且适用)。

在检出代码路径中,blob 内容首先由 text 转换,然后由 ident 转换并提供给 filter

合并具有不同检入/检出属性的分支

如果您为文件添加了导致该文件的规范仓库格式发生更改的属性,例如添加 clean/smudge 过滤器或 text/eol/ident 属性,那么合并任何属性未就位的分支通常会导致合并冲突。

为了防止这些不必要的合并冲突,可以通过设置 merge.renormalize 配置变量,告诉 Git 对需要三路内容合并的每个文件的所有三个阶段运行虚拟检出和检入。这可以防止在合并已转换文件和未转换文件时,由检入转换引起的更改导致虚假的合并冲突。

只要 "smudge→clean" 的结果与 "clean" 的结果相同(即使是对已经 smudge 处理过的文件),这种策略就会自动解决所有与过滤器相关的冲突。不以此方式运行的过滤器可能会导致额外的合并冲突,必须手动解决。

生成差异文本

diff

diff 属性影响 Git 如何为特定文件生成差异。它可以告诉 Git 是为路径生成文本补丁还是将路径视为二进制文件。它还可以影响 hunk 标题行 @@ -k,l +n,m @@ 显示的内容,告诉 Git 使用外部命令生成差异,或要求 Git 在生成差异之前将二进制文件转换为文本格式。

已设置 (Set)

设置了 diff 属性的路径被视为文本,即使它们包含通常绝不会出现在文本文件中的字节值(如 NUL)。

未设置 (Unset)

取消设置了 diff 属性的路径将生成 Binary files differ(或者如果启用了二进制补丁,则生成二进制补丁)。

未指定 (Unspecified)

未指定 diff 属性的路径首先会被检查其内容,如果它看起来像文本且小于 core.bigFileThreshold,则被视为文本。否则将生成 Binary files differ

字符串

使用指定的 diff 驱动程序显示差异。每个驱动程序可以指定一个或多个选项,如下节所述。diff 驱动程序 "foo" 的选项由 Git 配置文件中 "diff.foo" 部分的配置变量定义。

定义外部差异驱动程序

diff 驱动程序的定义是在 gitconfig 而不是 gitattributes 文件中完成的,所以严格来说本手册页不是讨论它的正确场所。然而……

要定义外部 diff 驱动程序 jcdiff,请向您的 $GIT_DIR/config 文件(或 $HOME/.gitconfig 文件)添加如下部分:

[diff "jcdiff"]
	command = j-c-diff

当 Git 需要为 diff 属性设置为 jcdiff 的路径显示差异时,它会调用您通过上述配置指定的命令(即 j-c-diff),并带有 7 个参数,就像调用 GIT_EXTERNAL_DIFF 程序一样。详情见 git[1]

如果该程序能够忽略某些更改(类似于 git diff --ignore-space-change),则还将选项 trustExitCode 设置为 true。届时如果它发现重大更改,预期返回退出代码 1,否则返回 0。

设置内部差异算法

差异算法可以通过 diff.algorithm 配置项设置,但有时按路径设置差异算法可能会很有用。例如,人们可能希望对 .json 文件使用 minimal 差异算法,对 .c 文件使用 histogram,依此类推,而不必每次都通过命令行传递算法。

首先,在 .gitattributes 中,为路径分配 diff 属性。

*.json diff=<name>

然后,定义 "diff.<name>.algorithm" 配置以指定差异算法,可从 myerspatienceminimalhistogram 中选择。

[diff "<name>"]
  algorithm = histogram

此差异算法适用于面向用户的差异输出,如 git-diff(1)、git-show(1),并也用于 --stat 输出。合并机制不会使用通过此方法设置的差异算法。

注意
如果为具有 diff=<name> 属性的路径定义了 diff.<name>.command,它将作为外部差异驱动程序执行(见上文),添加 diff.<name>.algorithm 将无效,因为算法不会传递给外部差异驱动程序。

定义自定义 hunk 标题

文本差异输出中的每组更改(称为 "hunk")都带有一个如下形式的前缀:

@@ -k,l +n,m @@ TEXT

这被称为 hunk header(块头)。"TEXT" 部分默认是字母、下划线或美元符号开头的行;这与 GNU diff -p 输出使用的匹配。然而,默认选择不适用于某些内容,您可以使用自定义模式进行选择。

首先,在 .gitattributes 中,您可以为路径分配 diff 属性。

*.tex	diff=tex

然后,您将定义一个 "diff.tex.xfuncname" 配置,以指定匹配您希望作为块头 "TEXT" 出现的行的正则表达式。向您的 $GIT_DIR/config 文件(或 $HOME/.gitconfig 文件)添加如下部分:

[diff "tex"]
	xfuncname = "^(\\\\(sub)*section\\{.*)$"

注意。单层反斜杠会被配置文件解析器吃掉,因此您需要双写反斜杠;上面的模式选取以反斜杠开头,且有零个或多个 sub 后跟 section 再后跟左大括号的行,直到行尾。

有一些内置模式可以让这更容易,tex 就是其中之一,所以您不必在配置文件中编写上述内容(您仍然需要通过 .gitattributes 的属性机制启用它)。可以使用以下内置模式:

  • ada 适用于 Ada 语言源代码。

  • bash 适用于 Bourne-Again SHell 语言源代码。涵盖 POSIX shell 函数定义的超集。

  • bibtex 适用于带有 BibTeX 编码引用的文件。

  • cpp 适用于 C 和 C++ 语言源代码。

  • csharp 适用于 C# 语言源代码。

  • css 适用于级联样式表 (CSS)。

  • dts 适用于设备树 (DTS) 文件。

  • elixir 适用于 Elixir 语言源代码。

  • fortran 适用于 Fortran 语言源代码。

  • fountain 适用于 Fountain 文档。

  • golang 适用于 Go 语言源代码。

  • html 适用于 HTML/XHTML 文档。

  • java 适用于 Java 语言源代码。

  • kotlin 适用于 Kotlin 语言源代码。

  • markdown 适用于 Markdown 文档。

  • matlab 适用于 MATLAB 和 Octave 语言源代码。

  • objc 适用于 Objective-C 语言源代码。

  • pascal 适用于 Pascal/Delphi 语言源代码。

  • perl 适用于 Perl 语言源代码。

  • php 适用于 PHP 语言源代码。

  • python 适用于 Python 语言源代码。

  • ruby 适用于 Ruby 语言源代码。

  • rust 适用于 Rust 语言源代码。

  • scheme 适用于 Scheme 语言源代码。

  • tex 适用于 LaTeX 文档源代码。

自定义单词差异

通过在 "diff.*.wordRegex" 配置变量中指定适当的正则表达式,您可以自定义 git diff --word-diff 用于拆分行中单词的规则。例如,在 TeX 中,反斜杠后跟一系列字母构成一个命令,但几个这样的命令可以连在一起运行,中间没有空格。要分隔它们,请在您的 $GIT_DIR/config 文件(或 $HOME/.gitconfig 文件)中使用如下正则表达式:

[diff "tex"]
	wordRegex = "\\\\[a-zA-Z]+|[{}]|\\\\.|[^\\{}[:space:]]+"

为上一节列出的所有语言都提供了内置模式。

执行二进制文件的文本差异

有时希望查看某些二进制文件的文本转换版本的差异。例如,文字处理文档可以转换为 ASCII 文本表示,并显示文本的差异。尽管这种转换会丢失一些信息,但生成的差异对于人类查看很有用(但不能直接应用)。

textconv 配置选项用于定义执行此类转换的程序。该程序应接受一个参数(要转换的文件名),并在 stdout 上生成生成的文本。

例如,要显示文件的 exif 信息差异而不是二进制信息(假设您安装了 exif 工具),请向您的 $GIT_DIR/config 文件(或 $HOME/.gitconfig 文件)添加以下部分:

[diff "jpg"]
	textconv = exif
注意
文本转换通常是单向转换;在这个例子中,我们丢失了实际的图像内容,只关注文本数据。这意味着由 textconv 生成的差异 适合应用。出于这个原因,只有 git diffgit log 系列命令(即 log、whatchanged、show)会执行文本转换。git format-patch 永远不会生成此输出。如果您想给某人发送二进制文件的文本转换差异(例如,因为它能快速传达您所做的更改),您应该单独生成它,并作为注释 连同 您可能发送的通常二进制差异一起发送。

因为文本转换可能很慢,特别是当使用 git log -p 进行大量转换时,Git 提供了一种缓存输出并在未来差异中使用的机制。要启用缓存,请在 diff 驱动程序的配置中设置 "cachetextconv" 变量。例如:

[diff "jpg"]
	textconv = exif
	cachetextconv = true

这将无限期地缓存在每个 blob 上运行 "exif" 的结果。如果您更改了 diff 驱动程序的 textconv 配置变量,Git 将自动使缓存条目失效并重新运行 textconv 过滤器。如果您想手动使缓存失效(例如,因为您的 "exif" 版本已更新并现在能产生更好的输出),您可以使用 git update-ref -d refs/notes/textconv/jpg(其中 "jpg" 是 diff 驱动程序的名称,如上例所示)手动删除缓存。

选择 textconv 还是外部差异

如果您想显示仓库中二进制或特殊格式 blob 之间的差异,您可以选择使用外部 diff 命令,或者使用 textconv 将其转换为可差异的文本格式。选择哪种方法取决于您的具体情况。

使用外部 diff 命令的优点是灵活性。您不受限于查找面向行的更改,输出也不必类似于统一差异 (unified diff)。您可以自由地以最适合您的数据格式的方式定位和报告更改。

相比之下,textconv 的限制要多得多。您提供数据到面向行的文本格式的转换,Git 使用其常规 diff 工具生成输出。选择这种方法有几个优点:

  1. 易于使用。编写二进制到文本的转换通常比执行您自己的差异要简单得多。在许多情况下,现有程序可以用作 textconv 过滤器(例如 exif、odt2txt)。

  2. Git diff 功能。通过自己仅执行转换步骤,您仍然可以利用 Git 的许多 diff 功能,包括着色、word-diff 以及合并的合并差异 (combined diffs)。

  3. 缓存。Textconv 缓存可以加速重复的差异,例如您通过运行 git log -p 触发的差异。

将文件标记为二进制

Git 通常通过检查内容的开头来正确猜测 blob 包含的是文本还是二进制数据。然而,有时您可能希望覆盖它的决定,原因可能是 blob 在文件后期包含二进制数据,或者内容虽然在技术上由文本字符组成,但对人类读者来说是不透明的。例如,许多 PostScript 文件仅包含 ASCII 字符,但会产生嘈杂且无意义的差异。

将文件标记为二进制的最简单方法是在 .gitattributes 文件中取消设置 diff 属性:

*.ps -diff

这将导致 Git 生成 Binary files differ(或者如果启用了二进制补丁,则生成二进制补丁)而不是常规差异。

然而,人们可能还想指定其他 diff 驱动程序属性。例如,您可能想使用 textconv 将 PostScript 文件转换为 ASCII 表示以便人类查看,但除此之外将其视为二进制文件。您不能同时指定 -diffdiff=ps 属性。解决方案是使用 diff.*.binary 配置选项:

[diff "ps"]
  textconv = ps2ascii
  binary = true

执行三路合并

merge

merge 属性影响在 git merge 以及 git revertgit cherry-pick 等命令期间需要进行文件级合并时,如何合并文件的三个版本。

已设置 (Set)

使用内置的三路合并驱动程序,以类似于 RCS 套件的 merge 命令的方式合并内容。这适用于普通文本文件。

未设置 (Unset)

采用当前分支的版本作为临时合并结果,并宣布合并存在冲突。这适用于没有明确定义合并语义的二进制文件。

未指定 (Unspecified)

默认情况下,这使用与设置了 merge 属性时相同的内置三路合并驱动程序。但是,merge.default 配置变量可以指定用于未指定 merge 属性的路径的不同合并驱动程序。

字符串

使用指定的自定义合并驱动程序执行三路合并。内置的三路合并驱动程序可以通过请求 "text" 驱动程序显式指定;内置的 "采用当前分支" 驱动程序可以通过 "binary" 请求。

内置合并驱动程序

定义了一些内置的低级合并驱动程序,可以通过 merge 属性请求。

text

文本文件通常的文件级三路合并。冲突区域用冲突标记 <<<<<<<, =======>>>>>>> 标记。来自您分支的版本出现在 ======= 标记之前,来自合并分支的版本出现在 ======= 标记之后。

binary

在工作树中保留您分支的版本,但将路径保留在冲突状态供用户解决。

union

对文本文件运行文件级三路合并,但从两个版本中获取行,而不是保留冲突标记。这往往会使合并结果文件中的新增行顺序混乱,用户应验证结果。如果您不了解其后果,请勿使用此驱动程序。

定义自定义合并驱动程序

合并驱动程序的定义是在 .git/config 文件中完成的,而不是在 gitattributes 文件中,所以严格来说本手册页不是讨论它的正确场所。然而……

要定义自定义合并驱动程序 filfre,请向您的 $GIT_DIR/config 文件(或 $HOME/.gitconfig 文件)添加如下部分:

[merge "filfre"]
	name = feel-free merge driver
	driver = filfre %O %A %B %L %P
	recursive = binary

merge.*.name 变量为驱动程序提供一个易读的名称。

merge.*.driver 变量的值用于构造要运行的命令,以处理共同祖先的版本 (%O)、当前版本 (%A) 和其他分支的版本 (%B)。在构建命令行时,这三个占位符会被替换为保存这些版本内容的临时文件名。此外,%L 将被替换为冲突标记的大小(见下文)。

预期合并驱动程序通过覆盖名为 %A 的文件来保留合并结果,如果成功合并,则以零状态退出;如果存在冲突,则以非零状态退出。当驱动程序崩溃(例如被 SEGV 杀死)时,预期以高于 128 的非零状态退出,在这种情况下,合并结果为失败(这与产生冲突不同)。

merge.*.recursive 变量指定当合并驱动程序被调用以在多个共同祖先之间进行内部合并时,使用哪个其他合并驱动程序。如果未指定,驱动程序本身将同时用于内部合并和最终合并。

合并驱动程序可以通过占位符 %P 获知合并结果将存储的路径名。用于共同祖先、本地 HEAD 和其他 HEAD 的冲突标签可以分别使用 %S, %X%Y 传递。

conflict-marker-size

此属性控制冲突合并期间留在工作树文件中的冲突标记的长度。只有正整数才有意义。

例如,.gitattributes 中的这一行可以告诉合并机制,在合并文件 Documentation/git-merge.adoc 导致冲突时,留下比平时(通常为 7 个字符长)长得多的冲突标记。

Documentation/git-merge.adoc	conflict-marker-size=32

检查空白错误

whitespace

core.whitespace 配置变量允许您定义 diffapply 应针对项目中所有路径考虑的空白错误(参见 git-config[1])。此属性为您提供了按路径进行的更精细控制。

已设置 (Set)

注意 Git 已知的所有类型的潜在空白错误。制表符宽度取自 core.whitespace 配置变量的值。

未设置 (Unset)

不将任何内容视为错误。

未指定 (Unspecified)

使用 core.whitespace 配置变量的值来决定要注意哪些错误。

字符串

以与 core.whitespace 配置变量相同的格式,指定要关注的常见空白问题的逗号分隔列表。

创建归档

export-ignore

具有 export-ignore 属性的文件和目录将不会被添加到归档文件中。

export-subst

如果为文件设置了 export-subst 属性,那么 Git 在将此文件添加到归档时会展开几个占位符。展开取决于提交 ID 的可用性,即如果 git-archive[1] 给定的是树而不是提交或标签,则不会进行任何替换。占位符与 git-log[1] 的选项 --pretty=format: 相同,只是它们在文件中需要这样包裹:$Format:PLACEHOLDERS$。例如,字符串 $Format:%H$ 将被替换为提交哈希。但是,每个归档仅展开一个 %(describe) 占位符,以避免拒绝服务攻击。

打包对象

delta

对于 delta 属性设置为 false 的路径,将不会对对应的 blob 尝试增量压缩。

在 GUI 工具中查看文件

encoding

此属性的值指定了 GUI 工具(例如 gitk[1]git-gui[1])显示相关文件内容时应使用的字符编码。请注意,出于性能考虑,除非您在其选项中手动启用按文件编码,否则 gitk[1] 不会使用此属性。

如果未设置此属性或其值无效,则改用 gui.encoding 配置变量的值(参见 git-config[1])。

使用宏属性

您不希望为您跟踪的任何二进制文件应用任何换行符转换,也不希望产生文本差异。您需要指定例如:

*.jpg -text -diff

但是当您有很多属性时,这可能会变得很麻烦。使用宏属性,您可以定义一个属性,在设置该属性时,同时设置或取消设置许多其他属性。系统已知一个内置宏属性 binary

*.jpg binary

如上所示,设置 "binary" 属性也会取消设置 "text" 和 "diff" 属性。请注意,宏属性只能被“已设置 (Set)”,尽管设置一个宏属性可能会起到设置或取消设置其他属性,甚至使其他属性返回到“未指定 (Unspecified)”状态的效果。

定义宏属性

自定义宏属性只能在顶层 gitattributes 文件中定义($GIT_DIR/info/attributes、工作树顶层的 .gitattributes 文件,或者全局或系统级 gitattributes 文件),而不能在工作树子目录的 .gitattributes 文件中定义。内置宏属性 "binary" 等同于:

[attr]binary -diff -merge -text

注意事项

Git 在访问工作树中的 .gitattributes 文件时不会遵循符号链接。这保持了从索引或树访问文件与从文件系统访问文件时行为的一致性。

示例

如果您有这三个 gitattributes 文件:

(in $GIT_DIR/info/attributes)

a*	foo !bar -baz

(in .gitattributes)
abc	foo bar baz

(in t/.gitattributes)
ab*	merge=filfre
abc	-foo -bar
*.c	frotz

赋予路径 t/abc 的属性计算如下:

  1. 通过检查 t/.gitattributes(与所讨论的路径在同一目录下),Git 发现第一行匹配。设置了 merge 属性。它还发现第二行匹配,取消设置了 foobar 属性。

  2. 然后它检查 .gitattributes(在父目录中),发现第一行匹配,但 t/.gitattributes 文件已经决定了应如何赋予此路径 merge, foobar 属性,因此它保持 foobar 为未设置状态。设置了属性 baz

  3. 最后它检查 $GIT_DIR/info/attributes。此文件用于覆盖树内设置。第一行匹配,设置了 foobar 恢复为未指定状态,并取消设置了 baz

结果,分配给 t/abc 的属性变为:

foo	set to true
bar	unspecified
baz	set to false
merge	set to string value "filfre"
frotz	unspecified

另请参阅

GIT

Git[1] 套件的一部分