介绍
压缩是提升网站性能的关键手段之一。对于某些类型的文件,最大可减少 70% 的大小,从而大幅降低带宽需求。随着时间的推移,压缩算法不断得到优化,新的高效算法也逐渐被客户端和服务器所支持。
在实际应用中,Web 开发人员通常不需要亲自实现压缩机制,因为现代浏览器和服务器已经内置了这些功能,只需做一些配置即可。
通过合理利用这些压缩机制,网站性能能够得到显著提升,用户的访问速度和带宽利用效率也会大幅改善。
文件压缩
每种数据类型都包含一定程度的冗余,这意味着有一些空间是被浪费的。
例如,文本数据通常有多达 60% 的冗余,而音频和视频等其他媒体格式的冗余比例可能更高。
与文本不同,音频和视频等媒体格式在存储数据时占用了大量空间,因此优化存储和回收空间的需求在早期就已经显现出来。为了满足这一需求,工程师们设计了专门用于这些数据类型的优化压缩算法。根据压缩的特性,文件格式使用的压缩算法可以大致分为两类:
- 无损压缩(Lossless Compression):在无损压缩中,压缩和解压缩过程不会改变数据,解压后的数据与原始数据完全一致(字节对字节的匹配)。常见的无损压缩格式包括 GIF 和 PNG 图像格式。
- 有损压缩(Lossy Compression):有损压缩会在压缩过程中丢弃一些数据,这些丢失的数据对于用户来说通常是不可察觉的。Web 上的许多视频格式以及 JPEG 图像格式都属于有损压缩。
对于有损压缩,通常可以根据需要调整压缩的程度,压缩越多,质量可能越差,反之则质量更高。
为了优化网站的性能,理想的做法是尽可能多地压缩文件,同时保持在可接受的质量范围内。
通常情况下,有损压缩算法比无损压缩算法更高效,能够在不明显影响用户体验的情况下大幅减小文件大小。
端到端压缩
端到端压缩指的是由服务器完成的消息正文压缩,这一过程在数据从服务器到达客户端的整个传输过程中保持不变。无论经过多少个中间节点,数据的主体部分都不会被解压,直到最终到达客户端。
现代浏览器和服务器都支持端到端压缩,唯一需要协商的就是使用哪种压缩算法。目前,最常用的两种压缩算法是 gzip 和 br(即 Brotli )。
浏览器和服务器通过主动内容协商来选择使用的压缩算法。浏览器会发送一个 Accept-Encoding 头,标明其支持的算法及优先级顺序,服务器根据该信息选择一种算法,用于压缩响应体,并通过 Content-Encoding 头部告诉浏览器选用的压缩算法。
同时,为了支持缓存机制,服务器在响应中必须同时包含 Vary 头,至少包含 Accept-Encoding,以确保缓存能够区分不同编码方式的资源表示。
上图来自 Compression in HTTP - HTTP | MDN
参考
Compression in HTTP - HTTP | MDN