构建一个由MapReduce驱动的CQRS读写分离架构

分布式系统

文章字数: 3.7k

阅读时长: 16 分

我们面临的初始场景并不罕见：一个运行了数年的核心分析平台，其数据心脏是一个庞大的Hadoop集群。每天凌晨，TB级的原始日志通过MapReduce作业进行聚合、转换，最终生成一系列覆盖业务全景的报表数据，存储在HDFS上。业务方对这些报表的准确性和深度非常满意，但一个新的需求彻底打破了原有的宁静：他们需要一个交互式的前端界面，能够以亚秒级的响应速度对这些聚合后的数据进行多维度、即席的查询和分析。

直接将API对接到Hive或Presto上，然后提供给前端，这是最先被提出的方案。

它的优点是显而易见的：实现路径短，技术栈改动小。我们只需要在现有数据仓库之上暴露一个SQL查询网关。但在真实项目中，这个方案几乎立刻就被否决了。

性能不可控： 任何一次前端的复杂查询都可能在后台转化为一个耗时数分钟甚至更久的查询任务。这对于一个要求交互式体验的UI来说是致命的。用户无法忍受点击一个筛选按钮后长达一分钟的等待。
资源竞争： 交互式查询的并发流量会直接冲击本就繁忙的数据仓库集群，与核心的ETL任务争抢资源，可能导致关键的报表任务延迟，这是运维和数据团队无法接受的。
查询模式僵化： HDFS上的数据结构是为了批处理优化的，通常是宽表或分区表。为了支持多维度的即席查询，需要大量的索引，而这在HDFS上支持不佳。

这个方案的本质，是在一个为了一致性（Consistency）和分区容错性（Partition Tolerance）设计的系统（即CAP理论中的CP系统）上，强行要求极高的可用性（Availability）和低延迟。这种根本性的矛盾导致了它的不可行。

我们需要一个全新的架构。经过几轮讨论，最终的决策是采用命令查询职责分离（CQRS）模式。这并非一个新潮的概念，但它恰好能解开我们当前的困局。CQRS的核心思想是将系统的数据修改操作（Commands）和数据查询操作（Queries）分离开来。

命令（Command）端： 保持现状。继续使用稳定、强大的MapReduce作业作为数据聚合的唯一“写入”来源。它负责处理复杂的业务逻辑，保证数据的最终一致性和准确性。这是一个高延迟、高吞吐的路径。
查询（Query）端： 构建一个独立、高度优化的读取服务。当MapReduce作业完成后，我们将结果数据从HDFS同步到一个专门用于查询的存储中（例如Elasticsearch或ClickHouse）。这个存储将为数据建立合适的索引，以满足前端亚秒级查询的需求。这是一个低延迟、高并发的路径。

这个选择意味着我们要主动接受“最终一致性”。查询端的数据永远是“滞后”的，其新鲜度取决于MapReduce作业的运行频率和数据同步的时长。在CAP理论的视角下，我们为查询端选择了AP（可用性和分区容错性），以牺牲强一致性为代价换取极致的查询性能和系统可用性。对于分析型系统，这种权衡是完全合理的。

架构概览

整个系统的核心数据流可以用下面的图来表示。

flowchart TD
    subgraph Frontend
        A[Ant Design UI]
    end

    subgraph API Gateway
        B[API Facade]
    end

    subgraph Command Side
        C[Command Service] --> D{Job Tracker DB};
        C --> E[Hadoop Cluster];
        E -- MapReduce Job --> F[HDFS Output];
    end

    subgraph Data Sync
        G[Sync Service] -- Reads --> F;
        G -- Writes --> H[Elasticsearch Index];
    end

    subgraph Query Side
        I[Query Service] -- Reads --> H;
    end

    A -- "1. 触发/查询作业状态 (REST/GraphQL)" --> B;
    A -- "3. 数据查询 (REST/GraphQL)" --> B;
    B -- "/api/jobs" --> C;
    B -- "/api/analytics" --> I;
    C -- "更新作业状态" --> D;
    A -- "2. 实时状态更新 (WebSocket)" --> D;

前端UI (Ant Design): 用户通过界面发起一个新的数据生成任务（例如，重新计算上个月的销售数据），或者查询已有的分析数据。
API网关: 统一的入口，根据路由将请求分发到命令服务或查询服务。
命令服务: 接收创建任务的请求。它不直接处理数据，而是向Hadoop集群提交一个新的MapReduce作业，并在作业追踪数据库中记录任务状态（如PENDING, RUNNING, FAILED, SUCCEEDED）。
Hadoop集群: 执行耗时的MapReduce作业。
同步服务: 这是一个后台守护进程，定期检查HDFS上是否有新的作业产出。一旦发现，就读取数据并将其批量索引到Elasticsearch中。
查询服务: 提供一个高性能的只读API，直接从Elasticsearch中检索数据。
作业追踪数据库: 一个简单的关系型数据库（如PostgreSQL），用于前端轮询或服务端推送作业的实时状态。

核心实现：命令端与MapReduce作业

命令端的核心职责是接收HTTP请求并将其转化为一个Hadoop作业。这里必须考虑异步处理，因为作业提交本身也可能耗时。在真实项目中，我们会使用消息队列解耦，但为了简化，下面是一个直接提交的Java示例（使用Spring Boot）。

JobController.java (命令服务的API入口)

// package com.example.cqrs.command;

import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.http.HttpStatus;
import org.springframework.http.ResponseEntity;
import org.springframework.web.bind.annotation.*;

import java.util.UUID;
import java.util.concurrent.CompletableFuture;

@RestController
@RequestMapping("/api/jobs")
public class JobController {

    private final HadoopJobSubmitter jobSubmitter;
    private final JobStatusRepository jobStatusRepository;

    @Autowired
    public JobController(HadoopJobSubmitter jobSubmitter, JobStatusRepository jobStatusRepository) {
        this.jobSubmitter = jobSubmitter;
        this.jobStatusRepository = jobStatusRepository;
    }

    /**
     * 接收一个启动MapReduce作业的命令
     * @param request 包含作业参数，例如日期范围
     * @return 返回一个作业ID，前端可以用它来轮询状态
     */
    @PostMapping("/analytics")
    public ResponseEntity<JobSubmissionResponse> submitAnalyticsJob(@RequestBody JobSubmissionRequest request) {
        // 1. 参数校验
        if (request.getStartDate() == null || request.getEndDate() == null) {
            return ResponseEntity.badRequest().body(new JobSubmissionResponse(null, "Date range is required."));
        }
        
        // 2. 创建作业记录并持久化
        String jobId = UUID.randomUUID().toString();
        JobStatus jobStatus = new JobStatus(jobId, JobStatus.Status.PENDING, "Job has been accepted.");
        jobStatusRepository.save(jobStatus);

        // 3. 异步提交Hadoop作业，避免阻塞API线程
        // 这里的坑在于：如果直接同步调用，一个耗时的提交过程会占满Web服务器的线程。
        CompletableFuture.runAsync(() -> {
            try {
                jobSubmitter.submit(jobId, request);
            } catch (Exception e) {
                // 关键的错误处理：提交失败必须更新状态
                JobStatus failedStatus = jobStatusRepository.findById(jobId).orElse(jobStatus);
                failedStatus.setStatus(JobStatus.Status.FAILED);
                failedStatus.setMessage("Failed to submit job to Hadoop cluster: " + e.getMessage());
                jobStatusRepository.save(failedStatus);
                // 生产环境中，这里应该有更详细的日志和告警
                // log.error("Failed to submit job {}", jobId, e);
            }
        });

        return ResponseEntity.status(HttpStatus.ACCEPTED).body(new JobSubmissionResponse(jobId, "Job accepted for processing."));
    }

    /**
     * 查询作业状态
     * @param jobId 作业ID
     * @return 作业的当前状态
     */
    @GetMapping("/{jobId}/status")
    public ResponseEntity<JobStatus> getJobStatus(@PathVariable String jobId) {
        return jobStatusRepository.findById(jobId)
                .map(ResponseEntity::ok)
                .orElse(ResponseEntity.notFound().build());
    }
}

这个控制器清晰地体现了命令端的职责：验证、接受命令，并立即返回，将耗时操作转为后台异步执行。

UserSessionMapper.java (一个有实际意义的MapReduce Mapper)

我们假设要分析用户会话时长。输入数据是每条用户行为日志，格式为 userId,timestamp,action。

// package com.example.hadoop.jobs;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**
 * Mapper: 将原始日志解析为 (userId, timestamp) 对。
 * 这是MapReduce的第一步，目的是按用户进行分组。
 */
public class UserSessionMapper extends Mapper<LongWritable, Text, Text, LongWritable> {

    private final Text outKey = new Text();
    private final LongWritable outValue = new LongWritable();

    @Override
    protected void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {
        String line = value.toString();
        // 在生产环境中，这里的解析会更复杂，并有严格的错误处理。
        // 一个常见的错误是，一行脏数据就可能导致整个Map任务失败。
        String[] parts = line.split(",");
        if (parts.length < 2) {
            // 增加计数器来监控坏数据
            context.getCounter("ParseErrors", "MalformedRecord").increment(1);
            return;
        }

        try {
            String userId = parts[0].trim();
            long timestamp = Long.parseLong(parts[1].trim());

            outKey.set(userId);
            outValue.set(timestamp);
            context.write(outKey, outValue);
        } catch (NumberFormatException e) {
            context.getCounter("ParseErrors", "InvalidTimestamp").increment(1);
        }
    }
}

UserSessionReducer.java (计算会话时长)

// package com.example.hadoop.jobs;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;
import java.util.ArrayList;
import java.util.Collections;
import java.util.List;

/**
 * Reducer: 接收一个用户的所有时间戳，计算会话时长。
 * 会话定义为：两次操作间隔超过30分钟，则视为新会话。
 */
public class UserSessionReducer extends Reducer<Text, LongWritable, Text, LongWritable> {

    private static final long SESSION_TIMEOUT_MS = 30 * 60 * 1000; // 30分钟
    private final LongWritable outValue = new LongWritable();

    @Override
    protected void reduce(Text key, Iterable<LongWritable> values, Context context)
            throws IOException, InterruptedException {
        
        List<Long> timestamps = new ArrayList<>();
        for (LongWritable val : values) {
            timestamps.add(val.get());
        }

        // 必须排序才能正确计算会话
        Collections.sort(timestamps);

        if (timestamps.isEmpty()) {
            return;
        }

        long totalDuration = 0;
        long sessionStartTime = timestamps.get(0);
        long lastTimestamp = timestamps.get(0);

        for (int i = 1; i < timestamps.size(); i++) {
            long currentTimestamp = timestamps.get(i);
            if (currentTimestamp - lastTimestamp > SESSION_TIMEOUT_MS) {
                // 上一个会话结束
                totalDuration += (lastTimestamp - sessionStartTime);
                // 开启新会话
                sessionStartTime = currentTimestamp;
            }
            lastTimestamp = currentTimestamp;
        }
        // 添加最后一个会话的持续时间
        totalDuration += (lastTimestamp - sessionStartTime);

        outValue.set(totalDuration / 1000); // 结果单位为秒
        // 输出格式: userId, total_session_duration_seconds
        context.write(key, outValue);
    }
}

核心实现：查询端与前端交互

当MapReduce作业成功后，同步服务会将HDFS上的结果文件（例如 part-r-00000）拉取并索引到Elasticsearch。查询服务则提供一个简单的API来查询ES。

AnalyticsQueryController.java (查询服务的API)

// package com.example.cqrs.query;

import org.elasticsearch.client.RestHighLevelClient;
// ... (其他ES相关的import)
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.web.bind.annotation.*;

import java.io.IOException;
import java.util.List;
import java.util.Map;

@RestController
@RequestMapping("/api/analytics")
public class AnalyticsQueryController {

    @Autowired
    private RestHighLevelClient esClient;

    private static final String INDEX_NAME = "user_session_analytics";

    /**
     * 提供多维度的数据查询
     * @param topN 返回Top N的用户
     * @return 查询结果
     */
    @GetMapping("/user-sessions")
    public List<Map<String, Object>> getUserSessions(@RequestParam(defaultValue = "10") int topN) throws IOException {
        // 这里的代码将构建一个Elasticsearch查询DSL
        // 例如，按会话时长降序排列，取前N个
        SearchRequest searchRequest = new SearchRequest(INDEX_NAME);
        SearchSourceBuilder sourceBuilder = new SearchSourceBuilder();
        
        sourceBuilder.query(QueryBuilders.matchAllQuery());
        sourceBuilder.sort(new FieldSortBuilder("totalDuration").order(SortOrder.DESC));
        sourceBuilder.size(topN);
        
        searchRequest.source(sourceBuilder);
        
        SearchResponse response = esClient.search(searchRequest, RequestOptions.DEFAULT);

        // ... 将response解析为List<Map<String, Object>>
        // 在真实项目中，这里会有专门的DTO和转换逻辑。
        return parseEsResponse(response);
    }
}

前端React组件 (使用Ant Design)

前端的挑战在于如何优雅地处理这种高延迟的“写”操作和最终一致性。

// src/components/AnalyticsDashboard.jsx
import React, { useState, useEffect } from 'react';
import { Table, Button, Spin, Alert, Statistic, notification } from 'antd';
import axios from 'axios';

const AnalyticsDashboard = () => {
  const [data, setData] = useState([]);
  const [loading, setLoading] = useState(false);
  const [jobId, setJobId] = useState(null);
  const [jobStatus, setJobStatus] = useState(null);
  const [lastUpdated, setLastUpdated] = useState(null);

  const columns = [
    { title: 'User ID', dataIndex: 'userId', key: 'userId' },
    { title: 'Total Session Duration (seconds)', dataIndex: 'totalDuration', key: 'totalDuration', sorter: (a, b) => a.totalDuration - b.totalDuration },
  ];

  const fetchData = async () => {
    setLoading(true);
    try {
      const result = await axios.get('/api/analytics/user-sessions?topN=50');
      setData(result.data.hits); // 假设API返回格式
      setLastUpdated(new Date()); // 记录数据刷新时间
    } catch (error) {
      notification.error({ message: 'Failed to fetch analytics data' });
    } finally {
      setLoading(false);
    }
  };
  
  // 组件加载时获取一次数据
  useEffect(() => {
    fetchData();
  }, []);

  // 轮询作业状态
  useEffect(() => {
    if (!jobId || jobStatus === 'SUCCEEDED' || jobStatus === 'FAILED') {
      return;
    }
    const interval = setInterval(async () => {
      try {
        const result = await axios.get(`/api/jobs/${jobId}/status`);
        const newStatus = result.data.status;
        setJobStatus(newStatus);

        if (newStatus === 'SUCCEEDED') {
          notification.success({ message: 'Data processing complete!', description: 'The analytics data has been updated.' });
          setJobId(null);
          fetchData(); // 关键一步：作业成功后，自动刷新查询数据
        } else if (newStatus === 'FAILED') {
          notification.error({ message: 'Job Failed', description: result.data.message });
          setJobId(null);
        }
      } catch (error) {
        console.error("Failed to poll job status");
      }
    }, 5000); // 每5秒轮询一次

    return () => clearInterval(interval);
  }, [jobId, jobStatus]);


  const handleRecalculate = async () => {
    // 防止重复提交
    if (jobId) {
      notification.warning({ message: 'A job is already in progress.' });
      return;
    }
    try {
      // 这里的日期范围应该来自UI上的日期选择器
      const response = await axios.post('/api/jobs/analytics', {
        startDate: '2023-01-01',
        endDate: '2023-01-31',
      });
      setJobId(response.data.jobId);
      setJobStatus('PENDING');
      notification.info({ message: 'Job submitted', description: `Job ID: ${response.data.jobId}. We'll notify you upon completion.` });
    } catch (error) {
      notification.error({ message: 'Failed to submit job' });
    }
  };

  const renderJobStatus = () => {
    if (!jobId) return null;
    return (
      <Alert
        message={`Data recalculation in progress. Status: ${jobStatus}`}
        type="info"
        showIcon
        closable
        onClose={() => setJobId(null)}
      />
    );
  };

  return (
    <div>
      {renderJobStatus()}
      <div style={{ display: 'flex', justifyContent: 'space-between', alignItems: 'center', marginBottom: 16 }}>
        <Button onClick={handleRecalculate} type="primary" loading={!!jobId}>
          Recalculate Analytics Data
        </Button>
        {lastUpdated && <Statistic title="Data as of" value={lastUpdated.toLocaleString()} />}
      </div>
      <Spin spinning={loading}>
        <Table columns={columns} dataSource={data} rowKey="userId" />
      </Spin>
    </div>
  );
};

export default AnalyticsDashboard;

这个前端组件通过以下方式解决了最终一致性带来的用户体验问题：

明确的状态展示: UI清楚地告诉用户当前正在运行一个后台作业，并显示其状态。
数据时效性提示: 页面上明确展示“Data as of [timestamp]”，让用户对数据的“新鲜度”有准确预期。
主动通知与刷新: 通过轮询（在生产环境中更优的是WebSocket），在作业完成后自动刷新数据，形成一个完整的闭环体验。
操作反馈: 无论是提交成功、失败还是进行中，都通过Ant Design的notification组件给予用户清晰的即时反馈。

架构的局限性与未来迭代

这个由MapReduce驱动的CQRS架构，虽然优雅地解决了特定问题，但其适用边界也非常清晰。它本质上是一个为“写慢读快”场景设计的批处理系统，不适用于任何对数据实时性有要求的场景。如果业务需求变为需要查看近1分钟内的用户行为，整个命令端的技术选型就需要被颠覆，可能会转向使用Flink或Spark Streaming这样的流式处理引擎。

此外，数据同步环节是另一个潜在的瓶颈和故障点。同步服务的健壮性、数据校验、失败重试机制都需要在生产环境中做精细的设计。一个常见的错误是忽略了同步过程中可能出现的部分失败，这会导致查询端数据的不一致或缺失。

未来的迭代方向可能包括：

命令端升级: 将MapReduce替换为Spark，以缩短批处理窗口，提高数据新鲜度。
查询端多样化: 针对不同的查询需求，引入多种读取存储。例如，使用时序数据库（TSDB）来存储趋势数据，使用图数据库来分析用户关系。
Lambda架构融合: 引入一个并行的实时流处理链路，将批处理的结果与实时计算的结果在查询时合并，从而在UI上同时展示宏观历史数据和微观实时数据，但这会显著增加系统复杂度。

MapReduce CAP Theorem CQRS API 与架构 Ant Design

实现从Playwright E2E测试到Jaeger后端链路的端到端追踪关联

2023-10-27 可观测性

Jaeger Playwright MariaDB Micronaut

基于 Actix-web 与 Consul 构建 Grafana 动态日志关联面板的实践

2023-10-27 可观测性

Grafana Rollup Consul Loki Actix-web