基于 Raft 协议构建高可用的分布式 Snowflake Worker ID 管理器

分布式系统

文章字数: 3.4k

阅读时长: 15 分

我们系统的核心交易链路中，订单ID的生成逻辑最初依赖于MySQL的AUTO_INCREMENT。这个方案简单可靠，但在流量洪峰来临时，数据库的单点写入瓶颈成了整个系统的阿喀琉斯之踵。迁移到基于Redis INCR的方案暂时缓解了吞吐量问题，但Redis的持久化策略（AOF/RDB）在极端故障下仍有数据丢失的风险，可能导致ID回退，这是交易系统绝对无法接受的。

社区里流行的Snowflake算法是下一个目标。其 时间戳 + 数据中心ID + 机器ID + 序列号 的结构非常理想，完全去中心化，性能极高。然而，这里的核心难题转移到了”机器ID”（Worker ID）的分配和管理上。如果手动配置，运维成本高且容易出错；如果使用Zookeeper等协调服务来动态分配，又引入了新的外部依赖和潜在的故障点。

真正的痛点在于：我们需要一个能够自动、容错、且无单点故障地管理Snowflake Worker ID生命周期的组件。与其引入一个重量级的Zookeeper集群，不如从根源上解决问题——用一致性协议自己实现一个轻量级的、专门的Worker ID管理器。这不仅能让我们完全掌控核心组件的逻辑，还能在团队内沉淀对分布式一致性协议的工程实践经验。我们将基于Raft协议（一个比Paxos更易于理解和实现的共识算法）来构建这个管理器。

架构构想与状态机定义

我们的目标是构建一个由3个或5个节点组成的Raft集群。这个集群的唯一职责，就是维护一个全局一致的状态，这个状态记录了哪个Worker ID被哪个服务实例（Node）所持有，以及其租约的到期时间。

系统的核心交互流程如下：

服务实例启动时，向Raft集群发起一个AcquireWorkerID请求。
Raft集群的Leader节点处理该请求，从可用的ID池中分配一个ID，并为其设置一个租约（Lease）。
Leader将{workerId, nodeId, leaseExpiry}这条记录作为一条日志（Log Entry）复制到大多数Follower节点。
一旦日志被多数节点确认提交（Committed），状态机应用该日志，Leader向服务实例返回分配到的Worker ID。
持有ID的服务实例需要定期向Raft集群发送RenewLease请求来续约，本质上是提交一条更新leaseExpiry的日志。
如果一个服务实例宕机或网络隔离，其租约最终会过期。Leader节点会通过一个内部的周期性检查任务，将过期的Worker ID回收，使其能被重新分配。

这个过程的UML时序图如下：

sequenceDiagram
    participant Client as Service Instance
    participant Leader
    participant Follower1
    participant Follower2

    Client->>+Leader: AcquireWorkerID(nodeId)
    Leader->>Leader: Choose available workerId
    Leader->>Follower1: AppendEntries({workerId, nodeId, lease})
    Leader->>Follower2: AppendEntries({workerId, nodeId, lease})
    Follower1-->>Leader: ACK
    Follower2-->>Leader: ACK
    Note right of Leader: Log committed by majority
    Leader->>Leader: Apply to state machine
    Leader-->>-Client: Return workerId

    loop Heartbeat
        Client->>+Leader: RenewLease(workerId, nodeId)
        Leader->>Follower1: AppendEntries(update lease)
        Leader->>Follower2: AppendEntries(update lease)
        Follower1-->>Leader: ACK
        Follower2-->>Leader: ACK
        Leader-->>-Client: Lease Renewed
    end

这个架构的核心是Raft保证了对Worker ID分配和回收操作的串行化和一致性，即使在Leader节点宕机、发生网络分区的情况下，只要集群半数以上节点存活，系统就能正确地进行故障转移并继续提供服务，绝不会出现一个Worker ID被两个实例同时持有的情况。

核心代码实现：从Raft节点到应用层

我们将使用Go语言来实现这个系统，其强大的并发原语和标准库非常适合构建这类网络服务。我们将跳过一个完整的Raft库实现细节，而是聚焦于如何将Raft协议与我们的Worker ID管理业务逻辑相结合。这里假设我们有一个基础的Raft实现，它暴露了Propose(data []byte)方法用于提交数据到集群。

1. Snowflake生成器本身

首先，是一个标准的Snowflake ID生成器实现。这是我们最终要使用的”弹药”。

// snowflake.go
package main

import (
	"errors"
	"sync"
	"time"
)

const (
	workerIDBits     = 10
	sequenceBits     = 12
	timestampBits    = 41
	workerIDShift    = sequenceBits
	timestampShift   = sequenceBits + workerIDBits
	sequenceMask     = int64(-1) ^ (int64(-1) << sequenceBits)
	maxWorkerID      = int64(-1) ^ (int64(-1) << workerIDBits)
	twepoch          = int64(1672531200000) // 2023-01-01 00:00:00 UTC
)

var (
	ErrInvalidWorkerID      = errors.New("worker id must be greater than 0 and less than maxWorkerID")
	ErrTimestampBackwards   = errors.New("clock is moving backwards")
)

// Generator is the Snowflake ID generator.
type Generator struct {
	mu            sync.Mutex
	lastTimestamp int64
	workerID      int64
	sequence      int64
}

// NewGenerator creates a new Snowflake generator.
func NewGenerator(workerID int64) (*Generator, error) {
	if workerID < 0 || workerID > maxWorkerID {
		return nil, ErrInvalidWorkerID
	}
	return &Generator{
		workerID: workerID,
	}, nil
}

// NextID generates a new unique ID.
func (g *Generator) NextID() (int64, error) {
	g.mu.Lock()
	defer g.mu.Unlock()

	timestamp := time.Now().UnixMilli()

	if timestamp < g.lastTimestamp {
		// In a real production system, you might wait for the clock to catch up,
		// or if the skew is small, borrow from the future.
		// For simplicity, we return an error.
		return 0, ErrTimestampBackwards
	}

	if g.lastTimestamp == timestamp {
		g.sequence = (g.sequence + 1) & sequenceMask
		if g.sequence == 0 {
			// Sequence overflow, wait for next millisecond.
			for timestamp <= g.lastTimestamp {
				timestamp = time.Now().UnixMilli()
			}
		}
	} else {
		g.sequence = 0
	}

	g.lastTimestamp = timestamp

	id := ((timestamp - twepoch) << timestampShift) |
		(g.workerID << workerIDShift) |
		g.sequence

	return id, nil
}

这份代码是一个生产级的Snowflake实现，包含了互斥锁保证并发安全，并处理了时钟回拨和同一毫秒内序列号溢出的情况。

2. 定义Raft状态机与指令

Raft集群需要一致性的数据是一个map[int64]LeaseInfo。我们需要定义对这个map的操作指令，这些指令将作为Raft日志的内容被复制。

// state.go
package main

import (
	"encoding/json"
	"time"
)

const (
	CmdAcquire = "ACQUIRE"
	CmdRenew   = "RENEW"
	CmdRelease = "RELEASE" // For graceful shutdown
)

// LeaseInfo holds the information about a worker ID lease.
type LeaseInfo struct {
	WorkerID  int64     `json:"worker_id"`
	NodeID    string    `json:"node_id"`
	ExpiresAt time.Time `json:"expires_at"`
}

// Command represents a command to be applied to the state machine.
type Command struct {
	Op       string `json:"op"`
	NodeID   string `json:"node_id"`
	WorkerID int64  `json:"worker_id,omitempty"` // omitempty for acquire
}

// WorkerIDManager is our state machine.
type WorkerIDManager struct {
	mu      sync.RWMutex
	leases  map[int64]LeaseInfo // The consensus state: workerID -> LeaseInfo
	nodeMap map[string]int64    // Helper map: nodeID -> workerID
	
	leaseDuration time.Duration
}

// NewWorkerIDManager creates a new state machine.
func NewWorkerIDManager(leaseDuration time.Duration) *WorkerIDManager {
	return &WorkerIDManager{
		leases:        make(map[int64]LeaseInfo),
		nodeMap:       make(map[string]int64),
		leaseDuration: leaseDuration,
	}
}

// Apply applies a command from the Raft log to the state machine.
// This function MUST be deterministic.
func (m *WorkerIDManager) Apply(cmdBytes []byte) interface{} {
	var cmd Command
	if err := json.Unmarshal(cmdBytes, &cmd); err != nil {
		// In production, this should be logged seriously.
		// A command that can't be unmarshalled is a critical bug.
		return err
	}
	
	m.mu.Lock()
	defer m.mu.Unlock()

	switch cmd.Op {
	case CmdAcquire:
		// Check if this node already has a lease.
		if existingID, ok := m.nodeMap[cmd.NodeID]; ok {
			// If lease is still valid, just return the existing ID.
			if m.leases[existingID].ExpiresAt.After(time.Now()) {
				return existingID
			}
		}
		
		// Find an available ID
		for i := int64(0); i <= maxWorkerID; i++ {
			if _, exists := m.leases[i]; !exists {
				lease := LeaseInfo{
					WorkerID:  i,
					NodeID:    cmd.NodeID,
					ExpiresAt: time.Now().Add(m.leaseDuration),
				}
				m.leases[i] = lease
				m.nodeMap[cmd.NodeID] = i
				return i
			}
		}
		return errors.New("no available worker ids")

	case CmdRenew:
		if existingID, ok := m.nodeMap[cmd.NodeID]; ok && existingID == cmd.WorkerID {
			if lease, leaseExists := m.leases[cmd.WorkerID]; leaseExists {
				lease.ExpiresAt = time.Now().Add(m.leaseDuration)
				m.leases[cmd.WorkerID] = lease
				return true
			}
		}
		return errors.New("lease not found or node mismatch")

	case CmdRelease:
		if existingID, ok := m.nodeMap[cmd.NodeID]; ok && existingID == cmd.WorkerID {
			delete(m.leases, cmd.WorkerID)
			delete(m.nodeMap, cmd.NodeID)
		}
		return nil
	
	default:
		return errors.New("unknown command op")
	}
}

这里的Apply函数是关键。它必须是确定性的，即对于相同的初始状态和相同的日志序列，所有节点执行后必须达到完全一致的最终状态。注意，Apply内部使用了time.Now()，这是一个常见的陷阱。在真实的Raft实现中，Leader节点在创建日志条目时就应该确定ExpiresAt的具体时间戳，并将其包含在Command结构体中，以保证所有Follower应用此日志时使用相同的时间戳。为了简化，我们暂时接受这种微小的不一致性，在真实项目中必须修复。

3. 服务层封装

服务层将HTTP请求翻译成Raft指令，并提交给Raft集群。

// server.go
package main

import (
	"encoding/json"
	"log"
	"net/http"
	"time"
)

// RaftNode is an interface representing our underlying Raft implementation.
type RaftNode interface {
	Propose(cmd []byte) (interface{}, error)
	IsLeader() bool
}

type Server struct {
	raftNode RaftNode
	manager  *WorkerIDManager // The server holds a reference to the state machine
	nodeID   string
}

func NewServer(nodeID string, raftNode RaftNode, manager *WorkerIDManager) *Server {
	return &Server{
		raftNode: raftNode,
		manager:  manager,
		nodeID:   nodeID,
	}
}

// handleAcquire handles the HTTP request to get a worker ID.
func (s *Server) handleAcquire(w http.ResponseWriter, r *http.Request) {
	if !s.raftNode.IsLeader() {
		// In a real system, we should redirect the client to the current leader.
		http.Error(w, "not the leader", http.StatusBadGateway)
		return
	}

	reqNodeID := r.URL.Query().Get("nodeId")
	if reqNodeID == "" {
		http.Error(w, "nodeId is required", http.StatusBadRequest)
		return
	}

	cmd := Command{
		Op:     CmdAcquire,
		NodeID: reqNodeID,
	}
	cmdBytes, _ := json.Marshal(cmd)

	result, err := s.raftNode.Propose(cmdBytes)
	if err != nil {
		log.Printf("Failed to propose command: %v", err)
		http.Error(w, err.Error(), http.StatusInternalServerError)
		return
	}
	
	// Respond to the client
	json.NewEncoder(w).Encode(map[string]interface{}{"worker_id": result})
}
// ... handleRenew and handleRelease would follow a similar pattern ...

这个服务层代码展示了如何将业务逻辑（HTTP请求）与底层Raft共识模块解耦。只有Leader节点才能处理写请求（Acquire, Renew）。Follower节点收到请求应返回错误或重定向。

4. 高吞吐量审计日志

Snowflake算法每秒可以生成数百万ID。如果我们想对每一次ID的分配（或每一段序列号的消耗）进行审计，传统的RDBMS会立刻被写爆。这是一个列式NoSQL数据库的完美应用场景。

我们将引入一个简单的机制：每当一个服务实例成功获取或续约Worker ID，它会异步地将一条审计记录发送到专门的日志收集通道，这个通道的后端是一个支持高并发写入的列式数据库，例如ClickHouse。

graph TD
    subgraph Service Instance
        A[ID Generator] -- generates ID --> B{Audit?}
    end
    subgraph Raft Cluster
        C[Leader]
        D[Follower]
        E[Follower]
        C <--> D
        C <--> E
    end

    ServiceInstance -- 1. Acquire/Renew WorkerID --> C
    
    B -- Yes --> F[Async Log Channel]
    F -- Batch Write --> G[(Columnar DB: ClickHouse)]

    style G fill:#f9f,stroke:#333,stroke-width:2px

一条审计日志的结构可能如下：
{ event_timestamp, event_type, node_id, worker_id, trace_id }

写入ClickHouse的代码可能像这样：

// audit_logger.go
package main

import (
	"context"
	"fmt"
	"github.com/ClickHouse/clickhouse-go/v2"
	"log"
	"time"
)

type AuditLog struct {
	Timestamp time.Time `ch:"timestamp"`
	EventType string    `ch:"event_type"`
	NodeID    string    `ch:"node_id"`
	WorkerID  int64     `ch:"worker_id"`
}

type ClickHouseLogger struct {
	conn clickhouse.Conn
	ch   chan AuditLog
}

func NewClickHouseLogger(addr string) (*ClickHouseLogger, error) {
	conn, err := clickhouse.Open(&clickhouse.Options{
		Addr: []string{addr},
		Auth: clickhouse.Auth{
			Database: "default",
			Username: "default",
			Password: "",
		},
	})
	if err != nil {
		return nil, err
	}

	// This is a simplified example. In production, you'd use a more robust batching mechanism.
	logger := &ClickHouseLogger{
		conn: conn,
		ch:   make(chan AuditLog, 10000), // Buffered channel
	}

	go logger.batchWriter() // Start the background writer

	return logger, nil
}

func (l *ClickHouseLogger) Log(event AuditLog) {
	select {
	case l.ch <- event:
		// Logged successfully to buffer
	default:
		// Buffer is full. In a real system, you'd handle this case
		// (e.g., drop, block, or write to a fallback file).
		log.Println("Audit log channel is full, dropping log.")
	}
}

func (l *ClickHouseLogger) batchWriter() {
	ticker := time.NewTicker(5 * time.Second)
	defer ticker.Stop()
	
	batch := make([]AuditLog, 0, 1000)

	for {
		select {
		case logEntry := <-l.ch:
			batch = append(batch, logEntry)
			if len(batch) >= 1000 {
				l.flush(batch)
				batch = make([]AuditLog, 0, 1000) // Reset batch
			}
		case <-ticker.C:
			if len(batch) > 0 {
				l.flush(batch)
				batch = make([]AuditLog, 0, 1000) // Reset batch
			}
		}
	}
}

func (l *ClickHouseLogger) flush(batch []AuditLog) {
	ctx := context.Background()
	statement, err := l.conn.PrepareBatch(ctx, "INSERT INTO audit_logs")
	if err != nil {
		log.Printf("Failed to prepare batch: %v", err)
		return
	}
	
	for _, logEntry := range batch {
		err := statement.AppendStruct(&logEntry)
		if err != nil {
			log.Printf("Failed to append to batch: %v", err)
			return // Abort this batch
		}
	}

	if err := statement.Send(); err != nil {
		log.Printf("Failed to send batch: %v", err)
	} else {
		log.Printf("Flushed %d audit logs to ClickHouse", len(batch))
	}
}

这个审计模块的设计遵循了几个重要原则：

异步化: Log方法是非阻塞的，写入缓冲channel后立即返回，对主业务（ID生成）的性能影响降到最低。
批量写入: 后台goroutine负责收集日志，并以每5秒或每1000条的策略批量写入ClickHouse，这极大地提高了数据库的写入吞吐量，是使用列式存储的最佳实践。
关注点分离: ID生成和管理的核心逻辑与审计日志完全解耦。如果ClickHouse集群出现问题，只会影响审计，而不会影响核心的ID服务。

局限性与未来迭代方向

我们构建的这个管理器虽然解决了核心问题，但在生产环境中仍有几个方面需要完善。

首先，我们的Raft实现是教学性质的。一个生产级的Raft库（如 hashicorp/raft 或 etcd/raft）会处理更多复杂情况，例如日志压缩、快照、成员变更（动态增删节点）等。直接使用这些成熟的库是更明智的选择。

其次，租约回收机制目前是依赖Leader节点的周期性扫描。当Worker ID数量巨大时，这可能会带来性能开销。可以考虑更优化的数据结构，例如按过期时间排序的小顶堆，来快速找到需要回收的租约。

最后，当前的方案中，持有Worker ID的服务实例是主动续约的。这在实例正常工作时没问题，但如果实例出现假死（进程存在但无法正常工作），租约可能依然被续期。一个更健壮的方案可能需要Raft管理器集群反向对服务实例进行健康检查，结合实例的主动心跳来共同决定租约的有效性。这增加了系统的复杂度，但进一步提升了鲁棒性。

Snowflake Paxos 算法 NoSQL (列式) Raft Go 分布式一致性

基于Rust构建APISIX插件实现对存量Ruby系统的身份认证与流量治理

2023-10-27 后端架构

APISIX Rust Ruby MobX Rome

基于Fluentd与OpenSearch构建与DynamoDB事务上下文关联的日志架构

2023-10-27 可观测性

Echo API Gateway OpenSearch Fluentd DynamoDB