1、bitnami/postgresql-repmgr:15 (镜像名)
Bitnami 的 PostgreSQL-Repmgr 镜像是一个预配置的 Docker 镜像,集成了 PostgreSQL 数据库和 repmgr(Replication Manager)工具,用于快速搭建高可用(HA)的 PostgreSQL 集群。
1. 核心组件
-
PostgreSQL:开源关系型数据库,支持主从复制。
-
repmgr:用于管理 PostgreSQL 复制和自动故障转移的工具,提供:
-
自动主从切换(failover)
-
节点监控
-
集群状态管理
-
2. 镜像特点
-
开箱即用:预配置主从复制和 repmgr 管理。
-
基于 Bitnami 标准化镜像:
-
非 root 用户运行(UID 1001),增强安全性。
-
数据卷挂载到
/bitnami/postgresql
。 -
日志输出到标准输出(方便 Docker 日志收集)。
-
-
环境变量驱动:通过环境变量配置数据库、复制和用户权限。
docker-compose.yml (同机部署)
配置电脑的hosts文件,pg-0 和pg-1的ip地址
services:pg-0:image: bitnami/postgresql-repmgr:15container_name: pg-0environment:POSTGRESQL_POSTGRES_PASSWORD: 123***POSTGRESQL_USERNAME: frankPOSTGRESQL_PASSWORD: 123***POSTGRESQL_DATABASE: frank-devPOSTGRESQL_NUM_SYNCHRONOUS_REPLICAS: 0REPMGR_USERNAME: repmgrREPMGR_PASSWORD: 123***REPMGR_DATABASE: repmgrREPMGR_PRIMARY_HOST: pg-0REPMGR_PRIMARY_PORT: 5432REPMGR_PARTNER_NODES: "pg-0:5432,pg-1:5432" # 关键:使用容器内部端口REPMGR_NODE_NAME: pg-0REPMGR_NODE_NETWORK_NAME: pg-0REPMGR_PORT_NUMBER: 5432POSTGRESQL_INITDB_ARGS: "--data-checksums"REPMGR_GENERATE_PGHBA_CONF: "yes"REPMGR_PGHBA_TRUST_ALL: "yes"REPMGR_CREATE_DB: "yes"REPMGR_FAILOVER_MODE: automaticREPMGR_RECONNECT_ATTEMPTS: 10REPMGR_RECONNECT_INTERVAL: 5volumes:- postgres_data_pg0:/bitnami/postgresqlports:- "5432:5432"networks:- docker_postgres15_networkhealthcheck: # 可选:健康检查test: ["CMD-SHELL", "pg_isready -U postgres -d repmgr"] # 直接检测 repmgr 数据库interval: 5stimeout: 3sretries: 3pg-1:image: bitnami/postgresql-repmgr:15container_name: pg-1environment:POSTGRESQL_POSTGRES_PASSWORD: 123***POSTGRESQL_USERNAME: frankPOSTGRESQL_PASSWORD: 123***POSTGRESQL_DATABASE: frank-devPOSTGRESQL_NUM_SYNCHRONOUS_REPLICAS: 0REPMGR_USERNAME: repmgrREPMGR_PASSWORD: 123***REPMGR_DATABASE: repmgrREPMGR_PRIMARY_HOST: pg-0REPMGR_PRIMARY_PORT: 5432REPMGR_PARTNER_NODES: "pg-0:5432,pg-1:5432" # 关键:使用容器内部端口REPMGR_NODE_NAME: pg-1REPMGR_NODE_NETWORK_NAME: pg-1REPMGR_PORT_NUMBER: 5432REPMGR_ROLE: standby # 明确声明为备用节点POSTGRESQL_INITDB_ARGS: "--data-checksums"REPMGR_GENERATE_PGHBA_CONF: "yes"REPMGR_PGHBA_TRUST_ALL: "yes"REPMGR_CREATE_DB: "yes"REPMGR_FAILOVER_MODE: automaticREPMGR_RECONNECT_ATTEMPTS: 10REPMGR_RECONNECT_INTERVAL: 5volumes:- postgres_data_pg1:/bitnami/postgresqlports:- "15432:5432"networks:- docker_postgres15_networkdepends_on: # 确保 pg-0 先启动pg-0:condition: service_healthynetworks:docker_postgres15_network:ipam:config:- subnet: 172.72.10.0/28driver: bridgevolumes:postgres_data_pg0:postgres_data_pg1:
2、bitnami/pgpool:4 (镜像名)
1. 核心组件
-
Pgpool-II:高性能中间件,为 PostgreSQL 提供连接池、负载均衡、自动故障转移等功能。
-
关键特性:
-
连接池:减少频繁连接开销。
-
负载均衡:读操作分散到多个从节点。
-
自动故障转移:主节点故障时提升从节点为新主。
-
Watchdog:多 Pgpool 节点间高可用(防止单点故障)。
-
2. 镜像特点
-
版本:基于 Pgpool-II 4.x(支持 PostgreSQL 10+)。
-
安全:以非 root 用户(UID 1001)运行。
-
配置驱动:通过环境变量或配置文件(
/opt/bitnami/pgpool/conf/
)管理。 -
集成健康检查:内置对后端 PostgreSQL 节点的监控。
docker-compose.yml
创建挂载的目录和文件
services:pgpool:image: bitnami/pgpool:4container_name: "my-pgpool"networks:- docker_postgres15_network # 与 PostgreSQL 容器同网络ports:- 9999:5432volumes:- ./conf/myconf.conf:/config/myconf.confenvironment:- PGPOOL_BACKEND_NODES=0:pg-0:5432,1:pg-1:5432 # 使用容器内部端口 定义后端节点(主节点必须排在第一个)- PGPOOL_SR_CHECK_USER=repmgr- PGPOOL_SR_CHECK_PASSWORD=123***- PGPOOL_ENABLE_LDAP=no- PGPOOL_POSTGRES_USERNAME=postgres- PGPOOL_POSTGRES_PASSWORD=123***- PGPOOL_ADMIN_USERNAME=admin- PGPOOL_ADMIN_PASSWORD=123***- PGPOOL_ENABLE_LOAD_BALANCING=yes # 启用读写分离- PGPOOL_POSTGRES_CUSTOM_USERS=frank- PGPOOL_POSTGRES_CUSTOM_PASSWORDS=123***- PGPOOL_HEALTH_CHECK_TIMEOUT=10- PGPOOL_HEALTH_CHECK_PERIOD=5- PGPOOL_FAILOVER_ON_BACKEND_ERROR=yesrestart: alwayshealthcheck:test: ["CMD", "/opt/bitnami/scripts/pgpool/healthcheck.sh"]interval: 10stimeout: 5sretries: 5
networks:docker_postgres15_network:ipam:config:- subnet: 172.72.10.0/28driver: bridge
3、实验主从
1)链接pgpool,创建数据表和数据,数据会自动同步到pg-0和pg-1
2)操作pg-1从数据库,只读不可操作。
3)模拟pg-0故障
docker compose -f docker-compose-pg.yml down pg-0 (指定关闭对应的服务)
a)从日志中可以看到当pg-0挂掉后会再重试5次,如果还访问不了会执行find_primary_node方法查找可以作为主节点的节点,然后把找到节点设置为新的主节点,所以现在pg-1是主节点,这个时候我们访问pgpoll还是能访问的,现在在users表里面再添加一行数据:
b)pgpool加了数据之后,pg-1已经成为了主节点,去pg-1把王五的年纪改完25成功,pgpool数据也同步修改
c)现在将pg-0启动起来,也会自动加入集群,会发现就算pg-0重新启动器来了,但是pg-1还是主节点不变,pg-0又会成为副节点。数据也会同步进去。
4、but:存在的问题:
1、pg-0 和 pg-1竟然都是主节点了!!!
注意,容器内部的端口问题,以上的配置都需要使用容器内部的5432端口,而非暴露出来的15432端口,后续验证正常。pg-1还是主节点,pg-0成为了从节点,符合预期。
2、第二次模拟失败
[NOTICE] TERM signal received pg-0 | 2025-06-30 08:42:28.609 GMT [233] FATAL: could not receive data from WAL stream: server closed the connection unexpectedly pg-0 | This probably means the server terminated abnormally pg-0 | before or while processing the request. pg-0 | 2025-06-30 08:42:28.609 GMT [232] LOG: invalid record length at 0/8000FC0: wanted 24, got 0 pg-0 | 2025-06-30 08:42:28.613 GMT [403] FATAL: could not connect to the primary server: connection to server at "pg-1" (172.72.10.3), port 5432 failed: Connection refused pg-0 | Is the server running on that host and accepting TCP/IP connections? pg-0 | 2025-06-30 08:42:28.613 GMT [232] LOG: waiting for WAL to become available at 0/8000FD8 pg-1 exited with code 0 pg-0 | [2025-06-30 08:42:30] [ERROR] unable to determine if server is in recovery pg-0 | [2025-06-30 08:42:30] [DETAIL] pg-0 | server closed the connection unexpectedly pg-0 | This probably means the server terminated abnormally pg-0 | before or while processing the request. pg-0 | pg-0 | [2025-06-30 08:42:30] [DETAIL] query text is: pg-0 | SELECT pg_catalog.pg_is_in_recovery() pg-0 | [2025-06-30 08:42:32] [NOTICE] upstream is available but upstream connection has gone away, resetting pg-0 | [2025-06-30 08:42:32] [NOTICE] current upstream node "pg-1" (ID: 1001) is not primary, restarting monitoring pg-0 | [2025-06-30 08:42:32] [ERROR] unable to determine an active primary for this cluster, terminating pg-0
第一次启动是主节点,pg-1是备份节点。模拟实验pg-0故障,pgpool会自动将pg-1作为主节点。pg-0节点恢复后会成为备份节点。后续再将pg-1节点关闭掉,此时pgpool在处理事时,直接报上面的错误
原因:自从节点自我修复时,需要耗时3-5分钟,等待修复好,再次down pg-1就可以了!!!
大功告成!
彩蛋:多机版主需要将pg-0和pg-1的docker-compose分成两个,保证他们在同一个网络中间即可,注意也要配置hosts文件。还有端口问题,都使用外部暴露的端口,不使用内部容器的端口。