构建基于Pulsar与Neo4j的实时图特征平台以驱动Kubeflow工作流

数据架构

文章字数: 3.6k

阅读时长: 15 分

在处理现代风控或推荐系统时，我们面临的核心挑战不再是数据量的多寡，而是数据之间关联的深度和实时性。传统的特征工程严重依赖基于键值的存储（如Redis或Cassandra），它们擅长处理个体实体的聚合特征，例如“用户A最近5分钟的交易次数”。然而，对于需要深度关联分析的场景，比如“用户A是否通过两个中间账户与已知的欺诈团伙成员C相关联”，这类键值存储就显得力不从心。这种查询需要遍历关系图，传统的做法是通过离线批处理（如Spark GraphX）来计算，其结果的时效性根本无法满足在线业务的需求。

我们的目标是构建一个能够实时摄取事件、动态更新实体关系图、并为下游机器学习模型（由Kubeflow管理）提供低延迟图特征查询服务的平台。这不仅是一个技术堆栈的简单组合，更是一次架构上的权衡与决策。

定义问题：超越扁平化特征的实时需求

一个典型的实时特征平台架构通常是：事件流 (Kafka/Pulsar) -> 流处理 (Flink/Spark Streaming) -> KV存储 (Redis)。这个架构非常成熟，在业界有大量应用。它能有效地计算滚动窗口聚合、计数、求和等特征。

方案A：基于KV存储的传统架构

实现: 使用Pulsar作为消息总线，消费用户行为、交易等事件。通过一个Flink作业进行实时聚合，将计算出的特征，如 user_id_transaction_count_5m，写入Redis。Kubeflow中的模型训练或在线预测服务直接从Redis读取这些扁平化的特征。
优势: 技术栈成熟，生态完善。对于单点特征的读写性能极高，延迟可控制在毫秒级。运维相对简单。
劣势: 致命的弱点在于无法表达和查询“关系”。所有实体间的关联都在流处理阶段被“压平”成了独立的特征值。要回答前文提到的关联欺诈问题，几乎是不可能的。一种折衷方案是预计算一些路径特征，但这会导致特征爆炸，并且无法覆盖所有未知的查询模式。在真实项目中，欺诈模式是不断变化的，预计算的思路很快就会失效。

方案B：引入图数据库的实时图计算架构

我们必须承认，问题的核心在于数据模型。既然要处理关系，就应该用原生支持关系模型的工具。这引出了我们的备选方案：将图数据库Neo4j引入实时数据流。

实现:
1. 事件摄取: 依旧使用Pulsar作为事件源，它提供的多租户、分层存储和统一的消息模型（流与队列）为我们提供了极大的灵活性。
2. 图谱构建: 开发一个或多个专门的Pulsar消费者服务，替代一部分Flink的聚合逻辑。这些服务消费原始事件，并将其转换为对Neo4j图谱的操作（节点的创建/更新、关系的建立/删除）。
3. 特征服务: 部署一个独立的API服务，它接收请求（例如，{ "user_id": "u123" }），然后执行预定义的Cypher查询在Neo4j中动态计算图特征。例如，社群发现算法（Label Propagation）、最短路径、PageRank等。
4. 模型集成: Kubeflow pipeline中的训练任务和在线推理服务通过调用这个特征服务API来获取实时图特征。
5. 可视化与监控: 一个前端应用，用于可视化图谱的局部结构、监控数据流入状态和特征服务的性能。
优势:
- 模型即数据: 数据以其最自然的形式（图）存储，查询语言（Cypher）原生为图遍历设计，表达力极强。
- 动态特征: 特征是在查询时动态计算的，能够应对多变的业务需求，无需预计算所有可能的路径。
- 深度洞察: 可以轻松实现以往批处理才能获得的深度关联特征，例如社区归属、中心性、关系路径等。
劣势:
- 架构复杂度: 引入了新的核心组件Neo4j，对其集群的稳定性、性能调优和运维带来了新的挑战。
- 性能权衡: 图查询的延迟通常高于KV查询，特别是对于深度或广度的遍历。这里的坑在于，设计不良的Cypher查询可能导致数据库性能雪崩。
- 数据一致性: 在一个高并发写入的系统中，保证图的最终一致性和事务性是一个需要精细处理的问题。

最终决策与理由

我们选择方案B。尽管它更复杂，但它直接解决了业务的核心痛点。在风控领域，漏过一个复杂的欺诈团伙造成的损失远高于增加的架构运维成本。方案A的上限太低，无法支撑业务未来的发展。我们接受这种权衡，并通过精细的工程实践来规避其风险。

核心实现概览

以下是整个系统的架构图和关键代码实现。

graph TD
    subgraph "事件源"
        A[用户行为] --> P
        B[交易数据] --> P
    end

    subgraph "消息与处理层"
        P(Pulsar Topic: raw-events) --> C{Pulsar Consumer Service}
    end

    subgraph "数据存储与服务层"
        C -- Cypher MERGE --> N[Neo4j Cluster]
        API[Feature Service API] -- Cypher READ --> N
    end

    subgraph "机器学习平台"
        KF[Kubeflow Pipeline] -- HTTP Request --> API
    end

    subgraph "监控与管理"
        FE[Frontend Dashboard] -- API Calls --> API
        FE -- Websocket/Polling --> P_Admin[Pulsar Admin API]
        FE -- Bolt Protocol --> N
    end

    style P fill:#2496ed,stroke:#333,stroke-width:2px
    style N fill:#008cc1,stroke:#333,stroke-width:2px
    style KF fill:#0769de,stroke:#333,stroke-width:2px

1. Pulsar消费者：实时构建图谱

这是连接事件流和图数据库的桥梁。我们使用Python实现一个健壮的消费者，它必须是幂等的，并且有良好的错误处理机制。

graph_builder_service.py

import pulsar
import json
import logging
from neo4j import GraphDatabase, exceptions
import os
import time

# --- 配置 ---
PULSAR_SERVICE_URL = os.environ.get("PULSAR_URL", "pulsar://localhost:6650")
PULSAR_TOPIC = os.environ.get("PULSAR_TOPIC", "persistent://public/default/raw-events")
PULSAR_SUBSCRIPTION = "graph-builder-subscription"
NEO4J_URI = os.environ.get("NEO4J_URI", "neo4j://localhost:7687")
NEO4J_USER = os.environ.get("NEO4J_USER", "neo4j")
NEO4J_PASSWORD = os.environ.get("NEO4J_PASSWORD", "password")

# --- 日志配置 ---
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

class GraphUpdater:
    def __init__(self, uri, user, password):
        # 这里的坑在于: 驱动程序对象是线程安全的，应该在应用中作为单例或全局对象重用
        self._driver = GraphDatabase.driver(uri, auth=(user, password))
        self.ensure_constraints()

    def close(self):
        self._driver.close()

    def ensure_constraints(self):
        # 生产环境中，索引和唯一性约束是保证性能和数据一致性的生命线
        # 启动时即确保约束存在，这是一种防御性编程
        queries = [
            "CREATE CONSTRAINT IF NOT EXISTS FOR (u:User) REQUIRE u.userId IS UNIQUE",
            "CREATE CONSTRAINT IF NOT EXISTS FOR (d:Device) REQUIRE d.deviceId IS UNIQUE",
            "CREATE CONSTRAINT IF NOT EXISTS FOR (p:Payment) REQUIRE p.paymentId IS UNIQUE",
            "CREATE INDEX IF NOT EXISTS FOR (t:Transaction) ON (t.timestamp)"
        ]
        with self._driver.session(database="neo4j") as session:
            for query in queries:
                try:
                    session.run(query)
                    logging.info(f"Successfully applied constraint/index: {query}")
                except exceptions.ClientError as e:
                    logging.warning(f"Could not apply constraint (might exist): {e}")


    def process_transaction_event(self, event_data):
        # 使用托管事务 (managed transaction) 来确保原子性
        # session.write_transaction 会自动处理重试逻辑，这是生产级代码的关键
        with self._driver.session(database="neo4j") as session:
            session.write_transaction(self._create_transaction_graph, event_data)

    @staticmethod
    def _create_transaction_graph(tx, data):
        # 这是一个核心的Cypher查询，使用MERGE来保证幂等性
        # MERGE = MATCH or CREATE，如果节点/关系不存在则创建，否则匹配
        # ON CREATE SET 用于在创建时设置属性，ON MATCH SET 用于更新时设置
        # 这是一个常见的错误：滥用CREATE，导致图中出现大量重复节点
        query = (
            "MERGE (u:User {userId: $userId}) "
            "MERGE (d:Device {deviceId: $deviceId}) "
            "MERGE (p:Payment {paymentId: $paymentId}) "
            "CREATE (t:Transaction {transactionId: $transactionId, amount: $amount, timestamp: datetime($timestamp)}) "
            "MERGE (u)-[:INITIATED]->(t) "
            "MERGE (d)-[:USED_FOR]->(t) "
            "MERGE (t)-[:TARGETS]->(p)"
        )
        tx.run(query, **data)
        logging.info(f"Processed transaction {data.get('transactionId')}")


def run_consumer():
    client = None
    consumer = None
    updater = GraphUpdater(NEO4J_URI, NEO4J_USER, NEO4J_PASSWORD)
    
    try:
        client = pulsar.Client(PULSAR_SERVICE_URL)
        consumer = client.subscribe(
            PULSAR_TOPIC,
            PULSAR_SUBSCRIPTION,
            # 关键配置: Dead Letter Queue. 无法处理的消息会被发到这里，而不是阻塞整个消费流程
            dead_letter_policy=pulsar.DeadLetterPolicy(
                max_redeliver_count=5,
                dead_letter_topic='persistent://public/default/raw-events-dlq'
            )
        )

        logging.info("Pulsar consumer started, waiting for messages...")
        while True:
            msg = consumer.receive()
            try:
                event = json.loads(msg.data().decode('utf-8'))
                event_type = event.get("eventType")
                
                if event_type == "TRANSACTION":
                    updater.process_transaction_event(event["data"])
                # 可以扩展处理其他事件类型
                # elif event_type == "LOGIN":
                #     updater.process_login_event(event["data"])
                
                # 成功处理后才ack
                consumer.acknowledge(msg)
            except json.JSONDecodeError as e:
                logging.error(f"Failed to decode JSON: {e}")
                consumer.negative_acknowledge(msg) # Nack让消息可以被重新消费
            except Exception as e:
                logging.error(f"An unexpected error occurred: {e}", exc_info=True)
                # 触发DLQ策略
                consumer.negative_acknowledge(msg)
    except KeyboardInterrupt:
        logging.info("Consumer shutting down...")
    finally:
        if consumer:
            consumer.close()
        if client:
            client.close()
        updater.close()

if __name__ == "__main__":
    run_consumer()

2. 特征服务API：动态图特征计算

这个服务是模型与图数据库之间的解耦层。我们使用FastAPI，因为它性能高且易于使用。

feature_api.py

from fastapi import FastAPI, HTTPException
from pydantic import BaseModel
from neo4j import GraphDatabase, exceptions
import os
import logging

# --- 配置 ---
NEO4J_URI = os.environ.get("NEO4J_URI", "neo4j://localhost:7687")
NEO4J_USER = os.environ.get("NEO4J_USER", "neo4j")
NEO4J_PASSWORD = os.environ.get("NEO4J_PASSWORD", "password")

# --- 日志配置 ---
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

app = FastAPI()

# --- Neo4j Driver 单例 ---
# 在FastAPI启动和关闭事件中管理驱动生命周期
@app.on_event("startup")
async def startup_event():
    app.state.driver = GraphDatabase.driver(NEO4J_URI, auth=(NEO4J_USER, NEO4J_PASSWORD))

@app.on_event("shutdown")
async def shutdown_event():
    if app.state.driver:
        app.state.driver.close()

class FeatureRequest(BaseModel):
    user_id: str

class FeatureResponse(BaseModel):
    user_id: str
    shared_device_count: int
    second_degree_fraud_contacts: int
    transaction_amount_stddev_24h: float

# --- 单元测试思路 ---
# 1. 模拟Neo4j驱动，测试API路由和请求/响应模型是否正确。
# 2. 针对下面的 _get_features_for_user 函数编写集成测试，
#    连接一个测试数据库，预置图数据，验证Cypher查询返回结果是否符合预期。

async def _get_features_for_user(user_id: str):
    # 这是最关键的部分：Cypher查询。
    # 这里的查询设计直接决定了API的性能。
    # 我们将多个特征的计算合并到一个查询中，以减少数据库往返次数。
    query = """
    MATCH (u:User {userId: $userId})
    // 特征1: 共享设备数 (一度关联)
    OPTIONAL MATCH (u)-[:INITIATED]->()-[:USED_FOR]-(d:Device)-[:USED_FOR]-()<-[:INITIATED]-(other:User)
    WITH u, count(DISTINCT other) AS sharedDeviceUsers
    
    // 特征2: 两跳内的欺诈用户数
    OPTIONAL MATCH (u)-[*1..2]-(contact:User)-[:HAS_STATUS]->(s:Status {type: 'FRAUD'})
    WITH u, sharedDeviceUsers, count(DISTINCT contact) AS fraudContactsIn2Hops
    
    // 特征3: 过去24小时交易额标准差
    OPTIONAL MATCH (u)-[:INITIATED]->(t:Transaction)
    WHERE t.timestamp > datetime() - duration({days: 1})
    WITH u, sharedDeviceUsers, fraudContactsIn2Hops, collect(t.amount) AS amounts
    
    RETURN
        u.userId AS userId,
        sharedDeviceUsers,
        fraudContactsIn2Hops,
        CASE
            WHEN size(amounts) > 1 THEN stDev(amounts)
            ELSE 0.0
        END AS amountStdDev
    """
    
    try:
        with app.state.driver.session(database="neo4j") as session:
            result = session.run(query, userId=user_id)
            record = result.single()
            if not record:
                raise HTTPException(status_code=404, detail="User not found")
            return {
                "user_id": record["userId"],
                "shared_device_count": record["sharedDeviceUsers"],
                "second_degree_fraud_contacts": record["fraudContactsIn2Hops"],
                "transaction_amount_stddev_24h": record["amountStdDev"]
            }
    except exceptions.ServiceUnavailable as e:
        logging.error(f"Neo4j connection error: {e}")
        raise HTTPException(status_code=503, detail="Feature database is unavailable")
    except Exception as e:
        logging.error(f"Error fetching features for {user_id}: {e}", exc_info=True)
        raise HTTPException(status_code=500, detail="Internal server error")


@app.post("/features", response_model=FeatureResponse)
async def get_features(request: FeatureRequest):
    """
    为指定的user_id计算并返回图特征向量。
    该接口被Kubeflow中的在线推理服务调用。
    """
    features = await _get_features_for_user(request.user_id)
    return features

3. 前端可视化组件：洞察关系

对于ML工程师和数据分析师来说，一个能够直观展示局部图谱的前端界面是至关重要的。这不仅用于数据探索，也是调试特征问题的利器。这里我们用一个React组件的伪代码来展示思路。

GraphExplorer.tsx (React + vis-network)

import React, { useState, useEffect, useCallback } from 'react';
import { Network } from 'vis-network';
import 'vis-network/styles/vis-network.css';

// 这是一个简化的前端组件，用于展示以某个用户为中心的子图
// 在真实项目中，会从API获取数据，这里用静态数据模拟

// API client to fetch subgraph data for a given user ID
// async function fetchSubgraph(userId) {
//   const response = await fetch(`/api/subgraph/${userId}`);
//   return await response.json(); // { nodes: [], edges: [] }
// }

const GraphExplorer = ({ centerNodeId }) => {
  const containerRef = React.useRef(null);
  const [network, setNetwork] = useState(null);

  const drawGraph = useCallback(() => {
    if (!containerRef.current) return;

    // 模拟从API获取的数据
    const data = {
      nodes: [
        { id: 'u123', label: 'User: u123', group: 'user', shape: 'dot', color: '#ff6347' },
        { id: 'd456', label: 'Device: d456', group: 'device' },
        { id: 'u789', label: 'User: u789', group: 'user' },
        { id: 'p999', label: 'Payment: p999', group: 'payment' },
        { id: 'fraud_ring', label: 'Fraud Ring', group: 'fraud' }
      ],
      edges: [
        { from: 'u123', to: 'd456' },
        { from: 'u789', to: 'd456' },
        { from: 'u789', to: 'fraud_ring' }
      ]
    };

    const options = {
      nodes: {
        shape: 'box',
        font: { size: 14, color: '#ffffff' },
        borderWidth: 2
      },
      edges: {
        width: 2,
        arrows: 'to'
      },
      physics: {
        enabled: true,
        solver: 'barnesHut',
        barnesHut: {
          gravitationalConstant: -8000,
          springConstant: 0.04,
          springLength: 95
        }
      },
      interaction: {
        hover: true,
        tooltipDelay: 300,
        dragNodes: true,
      },
      layout: {
          hierarchical: false
      }
    };

    const net = new Network(containerRef.current, data, options);
    setNetwork(net);

  }, [centerNodeId]);

  useEffect(() => {
    // 实际应用中，这里会触发API调用
    // fetchSubgraph(centerNodeId).then(data => drawGraph(data));
    drawGraph();
  }, [drawGraph]);

  return <div ref={containerRef} style={{ height: '600px', border: '1px solid #ccc' }} />;
};

export default GraphExplorer;

架构的扩展性与局限性

这个架构的扩展点非常清晰。我们可以通过增加新的Pulsar消费者来处理新型事件，定义新的节点和关系类型。特征API也可以轻松地增加新的查询端点来提供不同维度的特征，而无需改动底层数据结构。Neo4j本身支持因果集群（Causal Clustering）模式，可以在多个实例间分布读负载，保证高可用性。

然而，这个方案并非没有局限性。它的性能瓶颈最可能出现在Neo4j。对于超级节点（连接了数百万条边的节点）的查询，如果不做特殊优化（如关系采样或预聚合），性能会急剧下降。整个系统的实时性也受限于最慢的环节，即Pulsar消费延迟 + Neo4j写入延迟 + API查询延迟。对于要求亚毫秒级延迟的场景，这个架构可能不适用，传统的KV存储方案仍是首选。此外，维护一个生产级的Neo4j集群需要专门的知识，对团队的技术储备提出了更高要求。最后，图的无界增长会带来存储成本和性能衰减问题，需要设计合理的TTL（Time-To-Live）策略或归档机制来定期修剪旧的、不活跃的图数据。

Neo4j Pulsar Kubeflow Frontend MLOps Real-time

在 Node.js 与 Recoil 应用中实现基于 JWT 传递追踪上下文的全链路监控

2023-10-27 可观测性

Node.js Recoil JWT Jaeger OpenTelemetry

构建 Kubernetes Operator 以声明式管理集成 Puppet 配置的 JWT 认证服务与 CSS Modules 前端

2023-10-27 云原生

JWT Kubernetes Puppet CSS Modules