【重学MySQL】九十三、MySQL字符集与比较规则完全解析

【重学MySQL】九十三、MySQL字符集与比较规则完全解析

  • 一、字符集概述
    • 1.1 支持的字符集
    • 1.2 UTF8与UTF8MB4的区别
  • 二、比较规则(Collation)
    • 2.1 比较规则分类
    • 2.2 常见比较规则差异
  • 三、配置层级与继承关系
    • 3.1 配置层级
    • 3.2 继承关系
  • 四、最佳实践与问题解决
    • 4.1 统一字符集
    • 4.2 数据迁移与转换
    • 4.3 性能优化
    • 4.4 常见问题
  • 五、示例配置
    • 5.1 服务器级配置(`my.cnf`)
    • 5.2 创建数据库与表
    • 5.3 修改现有表
  • 六、总结

一、字符集概述

字符集是MySQL中用于定义字符如何存储、表示和比较的一组规则。它决定了数据库如何存储和检索文本数据,并处理不同语言和特殊字符。

1.1 支持的字符集

MySQL支持多种字符集,常见字符集如下:

字符集描述
UTF8/UTF8MB4UTF8支持1-3字节字符,适合大多数场景;UTF8MB4扩展至4字节,支持emoji等特殊字符。
Latin1西欧语言,兼容ASCII,适用于英文和西欧语言。
GBK/GB2312简体中文,GBK覆盖更多字符,GB2312是其前身。
ASCII仅支持英文字符,每个字符占1字节。
UTF16使用16位编码,适合存储复杂字符集(如中文、日文、韩文)。

1.2 UTF8与UTF8MB4的区别

  • UTF8:最大支持3字节字符,无法存储emoji等4字节字符。
  • UTF8MB4:支持4字节字符,是UTF8的超集,推荐用于现代应用。

二、比较规则(Collation)

比较规则决定字符串的排序和比较方式,它与字符集密切相关。

2.1 比较规则分类

规则类型描述
大小写敏感utf8_bin(二进制比较),区分大小写。
大小写不敏感utf8_general_ci(通用规则),不区分大小写。
语言特定utf8_spanish_ci(西班牙语规则),按特定语言排序。
Unicode标准utf8_unicode_ci(符合Unicode标准),排序更准确但性能略低。
最新规则MySQL 8.0+支持utf8mb4_0900_ai_ci,基于Unicode 9.0,支持更复杂的排序。

2.2 常见比较规则差异

  • utf8_general_ci:速度快,但排序可能不准确(如某些特殊字符)。
  • utf8_unicode_ci:遵循Unicode标准,排序更准确,但性能略低。
  • utf8mb4_0900_ai_ci:MySQL 8.0+默认规则,支持扩展的排序和比较功能。

三、配置层级与继承关系

MySQL的字符集和比较规则可配置于四个层级,优先级从高到低为:列级 > 表级 > 数据库级 > 服务器级

3.1 配置层级

层级配置方法
服务器级通过my.cnf配置文件或启动参数(如--character-set-server=utf8mb4)。
数据库级创建数据库时指定:CREATE DATABASE dbname CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
表级创建表时指定:CREATE TABLE table (...) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
列级定义字段时指定:name VARCHAR(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;

3.2 继承关系

  • 若未显式指定,低层级继承高层级的设置。例如:
    • 表未指定字符集时,使用数据库的字符集。
    • 列未指定字符集时,使用表的字符集。

四、最佳实践与问题解决

4.1 统一字符集

  • 避免乱码:确保服务器、数据库、表、列的字符集一致,并与客户端连接字符集匹配。
  • 客户端连接设置
    SET NAMES utf8mb4;
    
    或在配置文件my.cnf中设置:
    [client]
    default-character-set = utf8mb4
    

4.2 数据迁移与转换

  • 修改现有表的字符集
    ALTER TABLE table_name CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
    
  • 备份数据:修改字符集前务必备份,避免数据损坏。

4.3 性能优化

  • 选择合适的比较规则
    • 对性能敏感的场景,选择utf8_general_ci
    • 需要准确排序时,使用utf8_unicode_ciutf8mb4_0900_ai_ci

4.4 常见问题

  • 乱码问题:检查所有层级的字符集设置是否一致,并确保客户端连接字符集正确。
  • 排序错误:确认比较规则是否符合需求,例如中文排序需选择支持中文的规则(如utf8mb4_unicode_ci)。

五、示例配置

5.1 服务器级配置(my.cnf

[mysqld]
character-set-server = utf8mb4
collation-server = utf8mb4_unicode_ci

5.2 创建数据库与表

CREATE DATABASE mydb CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;CREATE TABLE users (id INT PRIMARY KEY,name VARCHAR(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;

5.3 修改现有表

ALTER TABLE users CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;

六、总结

  • 字符集决定存储方式,比较规则决定排序和比较行为。
  • 优先使用UTF8MB4以支持更广泛的字符,搭配utf8mb4_unicode_ciutf8mb4_0900_ai_ci确保准确排序。
  • 统一各层级的字符集设置,避免乱码和性能问题。

通过合理配置字符集和比较规则,可确保MySQL高效、正确地处理多语言数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/920798.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/920798.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于Kafka的延迟队列

实现原理 通过topic区分不同的延迟时长,每个topic对于一个延迟,比如 topic100 仅存储延迟 100ms 的消息,topic1000 仅存储延迟 1s 的消息,依次类推。生产消息时,消息需按延迟时长投递到对应的topic。消费消息时&#x…

LabVIEW转速仪校准系统

LabVIEW 与机器视觉的智能校准系统以工控机为核心,整合标准源、智能相机等硬件,通过软件实现校准流程自动化,支持 500-6000r/min 转速范围校准,覆盖 5 类转速测量仪,校准时间缩短约 70%,满足计量院高效、精…

Synchronized 概述

1. 初识 synchronized 是 Java 中的关键字,是一种 同步锁 ,可重入锁,悲观锁。它修饰的对象有以下几种: 具体表现为以下3种形式。 对于普通同步方法,锁是当前实例对象。 对于静态同步方法,锁是当前类的 Clas…

通过Auth.log来查看VPS服务器是否被扫描和暴力破解及解决办法

说明:很多人vps可能出现过被扫的情况,有的还被爆破了,这里提供下查看方法 查看用密码登陆成功的IP地址及次数grep "Accepted password for root" /var/log/auth.log | awk {print $11} | sort | uniq -c | sort -nr | more查看用密…

碰一碰发视频手机版源码开发:支持OEM

**从事开发 20 年,见过不少技术风口起起落落,最近 “碰一碰发视频” 又成了热门话题。不少同行或刚入行的年轻人来问我,手机版源码开发该从哪下手,怕踩坑、怕走弯路。今天就以一个老程序员的视角,把碰一碰发视频手机版…

只出现一次的数字(总结)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录前言一、给定一个整数数组nums,除了某个元素只出现一次以外,其余元素均出现两次。找出那个只出现一次的元素二、给你一个整数数组nums&#x…

Cesium 入门教程(十一):Camera相机功能展示

文章目录一,Cesium 实际示例(含源代码)1,vuecesium: 围绕一个固定点自动左右旋转2,vuecesium: flyto一个具体的实体位置3,vuecesium: flyto一个具体的点位置4&#xff0c…

go语言基本排序算法

package mainimport "fmt"func main() {BubbleSort()SelectSort()InsertSort()MergeSort()QuickSort()HeapSort()ShellSort() }//冒泡排序 func BubbleSort() {str : []int{9, 1, 5, 8, 3, 7, 4, 6, 2}for i : 0; i < len(str)-1; i {flag : falsefor j : len(str…

一步完成CalDAV账户同步,日历服务助力钉钉日历日程集中管理

在信息爆炸节奏飞快的今天&#xff0c;高效的管理时间已经成为我们工作和生活中的核心竞争力&#xff0c;复杂纷繁的日程安排&#xff0c;无处不在的提醒需求以及跨设备同步的困扰&#xff0c;这些问题仿佛都在呼唤着一个更智能、更便捷、更可靠的解决方案。 而华为日历App&am…

企业内部机密视频安全保护|如何防止企业内部机密视频泄露?

在企业数字化进程飞速发展的今天&#xff0c;视频内容已成为承载企业内部培训、战略会议、产品机密和核心技术的关键载体。一次意外的泄露&#xff0c;不仅可能导致知识产权流失&#xff0c;更会让企业声誉和市场竞争力遭受重创。面对无孔不入的安全威胁&#xff0c;企业该如何…

C# Deconstruct | 简化元组与对象的数据提取

官方文档&#xff1a;析构元组和其他类型 - C# | Microsoft Learn 标签&#xff1a;Deconstruct、Tuple、record、模式匹配 PS&#xff1a;record相关内容后续还会继续更新&#x1f504; 模式匹配可以查看我的另一篇&#x1f449;模式匹配 目录1. 概述2. 基本用法2.1 元组解…

R 语言 ComplexUpset 包实战:替代 Venn 图的高级集合可视化方案

摘要 在生物信息学、数据挖掘等领域的集合分析中,传统 Venn 图在多维度数据展示时存在信息拥挤、可读性差等问题。本文基于 R 语言的 ComplexUpset 包,以基因表达研究为场景,从包安装、数据准备到可视化实现,完整演示如何制作正刊级别的集合交集图,解决多条件下差异基因(…

​导游|基于SprinBoot+vue的在线预约导游系统

在线预约导游系统 基于SprinBootvue的在线预约导游系统 一、前言 二、系统设计 三、系统功能设计 前台功能实现 后台功能实现 管理员模块实现 导游模块实现 用户模块实现 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取&am…

SQL server 异常 出现错误 824

2025-08-27 01:36:37,324 ERROR c.z.i.w.DatabaseUtils [Scheduled-7] Error executeStoredProcedure SQL script: sp_RefreshDWDByDateFive警告: 在 08 27 2025 1:36AM 出现错误 824。请记录该错误和时间&#xff0c;并与您的系统管理员联系。 2025-08-27 01:36:37,332 ERROR …

制造业生产线连贯性动作识别系统开发

制造业生产线连贯性动作识别系统开发 第一部分&#xff1a;项目概述与理论基础 1.1 项目背景与意义 在现代智能制造环境中&#xff0c;尽管自动化程度不断提高&#xff0c;但人工操作仍然在复杂装配任务中扮演着不可替代的角色。研究表明&#xff0c;人机协作被视为打破传统人机…

什么是Jmeter? Jmeter工作原理是什么?

&#x1f345; 点击文末小卡片&#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 第一篇 什么是 JMeter&#xff1f;JMeter 工作原理 1.1 什么是 JMeter Apache JMeter 是 Apache 组织开发的基于 Java 的压力测试工具。用于对软件做压力测试&a…

Linux网络基础1(一)之计算机网络背景

文章目录计算机网络背景网络发展认识 "协议"高小琴例子方言例子计算机网络背景 网络发展 独立模式: 计算机之间相互独立; 网络互联: 多台计算机连接在一起, 完成数据共享; 局域网LAN: 计算机数量更多了, 通过交换机和路由器连接在一起; 广域网WAN: 将远隔千里的计算…

如何在数学建模赛中实现模型创新?

模型创新性在国赛数学建模中&#xff0c;完备性是论文的基本要求&#xff0c;而创新性则是决定论文能否脱颖而出的关键因素。所谓创新&#xff0c;并不仅仅指提出完全新颖的数学理论&#xff0c;而是能够在已有方法的基础上&#xff0c;通过新的问题切入点、假设修正、模型优化…

【重磅发布】flutter_chen_updater-版本升级更新

Flutter Chen Updater 一个功能强大的Flutter应用内更新插件&#xff0c;支持Android APK自动下载、安装和iOS跳转App Store。 ✨ 特性 ✅ 跨平台支持: Android APK自动更新&#xff0c;iOS跳转App Store✅ 智能下载: 支持断点续传、文件校验、多重备用方案✅ 权限管理: 自动处…

docker 1分钟 快速搭建 redis 哨兵集群

使用 docker-compose 1 分钟搭建好 1主2从3哨兵的 redis 哨兵集群 目录结构 redis-sentinel-cluster ├── check_redis.sh ├── docker-compose.yml ├── redis │ └── redis.conf ├── sentinel │ └── sentinel.confdocker-compose.yml 配置 version: 3…