构建一套贯穿 Redux、Worker 线程与 SQLite 的 OpenTelemetry 追踪系统

可观测性

文章字数: 3.4k

阅读时长: 15 分

一台性能不错的开发机上，我们的 Electron 应用在处理一个本地数据集时出现了无法解释的卡顿。用户点击一个“生成报告”按钮后，UI 会冻结大约 500ms 到 800ms，然后才恢复响应。Chrome DevTools 的 Performance 面板能看到主线程有长任务，但火焰图的调用栈非常深，混杂着 Redux 中间件、React 渲染和各种业务逻辑，难以准确定位瓶颈。

问题在于，这个操作的链路很长：

React 组件分发一个 Redux Action。
Redux Saga 中间件捕获该 Action，开始一个复杂的业务流程。
Saga 通过 IPC（进程间通信）向一个专门的 Worker 线程发送一个任务，要求对本地的 SQLite 数据库进行一次聚合查询。
Worker 线程执行 SQL 查询，并将结果返回给主线程。
Saga 接收到结果，分发一个成功 Action，更新 Redux Store。
React 组件响应 Store 变化，重新渲染 UI。

在真实项目中，日志是分散的。主线程（Renderer Process）的日志在 DevTools 控制台，Worker 线程的日志在主进程（Main Process）的终端里。它们之间没有统一的请求 ID，手动关联这些日志来分析一个完整的操作链路，效率极低。这本质上是一个“单体应用内的分布式系统”问题。既然如此，我们或许可以用处理微服务的思路来解决它——引入分布式链路追踪。

我们的目标是构建一个系统，能将从 Redux Action 发起到 SQLite 查询结束再到 UI 更新的整个过程，串联成一个完整的 trace，并在 Jaeger UI 中可视化展示。

技术选型与架构构想

追踪标准：OpenTelemetry (OTel)
这是毫无疑问的选择。作为 CNCF 的项目，它提供了统一的 API 和 SDK，避免了厂商锁定。我们将使用 @opentelemetry/sdk-node 用于 Electron 的主进程和 Worker 线程，@opentelemetry/sdk-trace-web 用于渲染器进程。
追踪后端：Jaeger
Jaeger 轻量、开源，并且可以通过一个 Docker 容器在本地快速启动，非常适合开发环境的调试。
核心挑战：上下文传播 (Context Propagation)
在典型的微服务架构中，Trace Context 通过 HTTP Headers（如 traceparent）在服务间传递。但在我们的 Electron 应用里，通信发生在 Redux Middleware 和 Worker 线程之间，通过 postMessage API。这意味着我们需要手动实现上下文的提取和注入。

我们的整体架构如下：

graph TD
    subgraph Renderer Process
        A[React Component: User Click] --> B{Redux Middleware};
        B -- 1. Start Trace & Span --> B;
        B -- 2. postMessage with Context --> C[Worker Thread];
        F[Redux Reducer] --> G[UI Update];
    end

    subgraph Worker Thread
        C -- 3. Receive Message & Extract Context --> D{SQLite Wrapper};
        D -- 4. Create Child Span --> E[SQLite Database];
        E -- 5. Execute Query --> D;
        D -- 6. End DB Span & Return Result --> C;
    end

    B -- 7. Receive Result & End Action Span --> F;

    B -- Sends Trace Data --> H((Jaeger Collector));
    D -- Sends Trace Data --> H;

    H --> I[Jaeger UI];

第一步：环境搭建与追踪器初始化

首先，我们需要一个本地运行的 Jaeger 实例。使用 docker-compose 是最简单的方式。

docker-compose.yml:

version: '3.8'
services:
  jaeger:
    image: jaegertracing/all-in-one:1.41
    container_name: jaeger
    ports:
      - "6831:6831/udp"    # Agent (UDP)
      - "16686:16686"      # Jaeger UI
      - "14268:14268"      # Collector (HTTP)
    environment:
      - COLLECTOR_ZIPKIN_HOST_PORT=:9411

运行 docker-compose up -d 启动 Jaeger。现在访问 http://localhost:16686 应该能看到 Jaeger UI。

接下来，在 Electron 应用的主进程（通常是 main.js 或 background.js）中初始化 OpenTelemetry Node SDK。

tracing.js:

// tracing.js - This file should be required at the very top of your main process entry point.
const { NodeSDK } = require('@opentelemetry/sdk-node');
const { OTLPTraceExporter } = require('@opentelemetry/exporter-trace-otlp-http');
const { Resource } = require('@opentelemetry/resources');
const { SemanticResourceAttributes } = require('@opentelemetry/semantic-conventions');
const { SimpleSpanProcessor } = require('@opentelemetry/sdk-trace-base');

// 1. 定义服务资源信息
const resource = new Resource({
  [SemanticResourceAttributes.SERVICE_NAME]: 'electron-local-reporter',
  [SemanticResourceAttributes.SERVICE_VERSION]: '1.0.0',
});

// 2. 配置 Jaeger Exporter
// 默认指向 http://localhost:14268/v1/traces
const traceExporter = new OTLPTraceExporter();

// 3. 创建 Span 处理器
// SimpleSpanProcessor 会在每个 span 结束后立即发送，适合调试。
// 在生产环境中，应该使用 BatchSpanProcessor。
const spanProcessor = new SimpleSpanProcessor(traceExporter);

// 4. 初始化 NodeSDK
const sdk = new NodeSDK({
  resource: resource,
  spanProcessor: spanProcessor,
  // 可以在此添加 instrumentations 来自动追踪 node 模块，但本次我们手动创建 span
});

// 5. 启动 SDK
try {
  sdk.start();
  console.log('OpenTelemetry tracing started successfully.');
  
  // 优雅关闭
  process.on('SIGTERM', () => {
    sdk.shutdown()
      .then(() => console.log('Tracing terminated.'))
      .catch((error) => console.error('Error terminating tracing', error))
      .finally(() => process.exit(0));
  });
} catch (error) {
  console.error('Error starting OpenTelemetry tracing', error);
}

// 导出 tracer provider 以便在其他模块中使用
const { DiagConsoleLogger, DiagLogLevel, diag } = require('@opentelemetry/api');
diag.setLogger(new DiagConsoleLogger(), DiagLogLevel.INFO);

// 我们需要一个全局的 TracerProvider 来创建 Tracer 实例
// SDK 启动后会自动注册一个全局 provider
const opentelemetry = require('@opentelemetry/api');
module.exports = {
    tracer: opentelemetry.trace.getTracer('electron-app-tracer'),
};

在主进程入口文件 main.js 的最顶行引入它：require('./tracing');。

第二步：创建追踪 Redux Action 的中间件

这是连接前端操作和后端逻辑的起点。我们将创建一个 Redux middleware，它为每个被“追踪”的 Action 启动一个新的 Span。

redux-opentelemetry-middleware.js:

import { trace, context, SpanStatusCode } from '@opentelemetry/api';

// 获取一个 Tracer 实例。假设 TracerProvider 已在渲染器进程中初始化。
// 注意：渲染器进程需要一个 Web Tracer Provider，配置类似 Node 的，但使用 @opentelemetry/sdk-trace-web
const tracer = trace.getTracer('redux-middleware-tracer');

const createTracingMiddleware = () => (store) => (next) => (action) => {
  // 我们只关心带有特定 meta 信息的 action
  if (!action.meta || !action.meta.trace) {
    return next(action);
  }

  const { spanName, attributes = {} } = action.meta.trace;

  // 创建一个新的 Span，它会自动成为当前活跃 Span 的子 Span (如果有的话)
  // 在我们的场景中，这通常是顶层 Span
  return tracer.startActiveSpan(spanName, { attributes }, (span) => {
    try {
      // 将 action type 和 payload 的关键信息作为事件添加到 span
      span.addEvent('action.dispatch', {
        'action.type': action.type,
        'action.payload.keys': Object.keys(action.payload || {}).join(','),
      });

      // 这里的 context.active() 至关重要
      // 它确保了在 next(action) 执行期间，我们刚创建的 span 是活跃的
      // 这意味着在 saga 或 thunk 内部创建的子 span 会自动关联到这个父 span
      const result = next(action);

      // 如果 action 的结果是 Promise (例如，异步 thunk)，我们需要处理它的完成
      if (result && typeof result.then === 'function') {
        return result.then(
          (res) => {
            span.setStatus({ code: SpanStatusCode.OK });
            span.setAttribute('action.result.success', true);
            span.end();
            return res;
          },
          (err) => {
            span.setStatus({
              code: SpanStatusCode.ERROR,
              message: err.message,
            });
            span.recordException(err);
            span.end();
            throw err;
          }
        );
      }

      // 对于同步 action，直接结束 span
      span.setStatus({ code: SpanStatusCode.OK });
      span.end();
      return result;
    } catch (error) {
      span.setStatus({
        code: SpanStatusCode.ERROR,
        message: error.message,
      });
      span.recordException(error);
      span.end(); // 确保异常时也结束 span
      throw error;
    }
  });
};

export default createTracingMiddleware;

在创建 Redux store 时应用这个中间件。现在，我们可以这样分发一个被追踪的 Action：

dispatch({
  type: 'REPORTS/GENERATE_COMPLEX_REPORT',
  payload: { reportId: 'xyz-123' },
  meta: {
    trace: {
      spanName: 'action: generate-report',
      attributes: {
        'report.id': 'xyz-123',
        'user.id': 'current-user-id',
      },
    },
  },
});

第三步：跨进程的上下文传播

这是最关键、也是最容易出错的地方。我们需要在 postMessage 时注入上下文，并在 Worker 中恢复它。OpenTelemetry API 提供了 propagation 对象来处理序列化和反序列化。

在 Redux Saga 中，当准备向 Worker 发送消息时：

reportSaga.js:

import { call, put, takeLatest } from 'redux-saga/effects';
import { propagation, context } from '@opentelemetry/api';

// 一个封装了与 Worker 通信的辅助函数
function callWorker(command, payload) {
  return new Promise((resolve, reject) => {
    const worker = new Worker(new URL('./report.worker.js', import.meta.url));
    
    // 1. 注入上下文
    const carrier = {};
    // 将当前活跃的上下文注入到一个普通 JS 对象中
    propagation.inject(context.active(), carrier);

    worker.onmessage = (event) => {
      resolve(event.data);
      worker.terminate();
    };
    worker.onerror = (error) => {
      reject(error);
      worker.terminate();
    };

    worker.postMessage({
      command,
      payload,
      traceContext: carrier, // 2. 将包含上下文的 carrier 一起发送
    });
  });
}

function* generateReportSaga(action) {
  try {
    // 这里的 call 会在 Redux Middleware 创建的 span 的上下文中执行
    const reportData = yield call(callWorker, 'generate-report', action.payload);
    yield put({ type: 'REPORTS/GENERATE_SUCCESS', payload: reportData });
  } catch (error) {
    yield put({ type: 'REPORTS/GENERATE_FAILURE', error });
  }
}

export default function* watchGenerateReport() {
  yield takeLatest('REPORTS/GENERATE_COMPLEX_REPORT', generateReportSaga);
}

现在，在 Worker 线程的代码中，我们需要做相反的操作：

report.worker.js:

// Worker 内部也需要一个 Tracer 实例
// 假设我们已经通过某种方式初始化了 OTel SDK
const { tracer } = require('./tracing'); // 复用主进程的 tracer 配置
const { propagation, context } = require('@opentelemetry/api');
const DatabaseService = require('./databaseService');

self.onmessage = async (event) => {
  const { command, payload, traceContext } = event.data;
  
  // 1. 从 carrier 中提取上下文
  const parentContext = propagation.extract(context.active(), traceContext);

  if (command === 'generate-report') {
    // 2. 创建一个子 Span，并将其与提取的父上下文关联
    const span = tracer.startSpan('worker: generate-report', {}, parentContext);

    // 3. 在这个新 Span 的上下文中执行 Worker 的核心逻辑
    await context.with(trace.setSpan(context.active(), span), async () => {
      try {
        span.addEvent('Processing started');
        const dbService = new DatabaseService(tracer); // 传递 tracer
        const result = await dbService.getComplexReport(payload.reportId);
        span.setAttribute('db.rows_returned', result.length);
        self.postMessage({ status: 'success', data: result });
        span.setStatus({ code: 0 }); // OK
      } catch (error) {
        self.postMessage({ status: 'error', message: error.message });
        span.setStatus({ code: 1, message: error.message }); // ERROR
        span.recordException(error);
      } finally {
        span.end();
      }
    });
  }
};

这里的核心是 propagation.extract 和 tracer.startSpan(name, options, parentContext)。通过这三步，我们成功地将 Renderer 进程中的 Span 和 Worker 进程中的 Span 连接了起来。

第四步：封装和追踪 SQLite 查询

直接在业务代码里操作 Span 会让代码变得混乱。一个常见的错误是忘记结束 Span，导致内存泄漏。更好的做法是创建一个数据库服务的包装器。

databaseService.js:

const sqlite3 = require('sqlite3').verbose();
const { SpanStatusCode } = require('@opentelemetry/api');

class DatabaseService {
  constructor(tracer) {
    // 这里的 tracer 是从 Worker 主逻辑传递进来的
    this.tracer = tracer;
    this.db = new sqlite3.Database('./reports.db', (err) => {
      if (err) {
        console.error('Failed to connect to SQLite:', err.message);
        // 在真实项目中，这里应该有更健壮的错误处理
      }
    });
  }

  // 封装一个通用的查询方法，并自动添加追踪
  async query(sql, params = []) {
    // startActiveSpan 会自动处理上下文，确保这个 DB span 是 worker span 的子 span
    return this.tracer.startActiveSpan(`db: query`, async (span) => {
      try {
        // 在 span 中记录关键信息，注意不要记录敏感数据
        span.setAttribute('db.system', 'sqlite');
        span.setAttribute('db.statement', this.sanitizeSql(sql));

        const startTime = Date.now();
        const rows = await new Promise((resolve, reject) => {
          this.db.all(sql, params, (err, rows) => {
            if (err) {
              reject(err);
            } else {
              resolve(rows);
            }
          });
        });
        const duration = Date.now() - startTime;

        span.setAttribute('db.duration_ms', duration);
        span.setStatus({ code: SpanStatusCode.OK });
        span.end();
        return rows;
      } catch (error) {
        span.recordException(error);
        span.setStatus({
          code: SpanStatusCode.ERROR,
          message: error.message,
        });
        span.end();
        throw error; // 重新抛出异常，让上层逻辑处理
      }
    });
  }

  sanitizeSql(sql) {
    // 一个非常简单的SQL清理，防止参数值被记录。生产环境需要更完善的方案。
    return sql.replace(/\s\s+/g, ' ').substring(0, 500);
  }

  // 具体的业务逻辑方法
  async getComplexReport(reportId) {
    const sql = `
      SELECT
        c.category_name,
        SUM(s.quantity * s.unit_price) as total_revenue,
        COUNT(DISTINCT s.product_id) as unique_products
      FROM sales s
      JOIN products p ON s.product_id = p.id
      JOIN categories c ON p.category_id = c.id
      WHERE s.report_id = ?
      GROUP BY c.category_name
      ORDER BY total_revenue DESC;
    `;
    // 调用我们封装的追踪查询方法
    return this.query(sql, [reportId]);
  }

  close() {
    this.db.close();
  }
}

module.exports = DatabaseService;

通过这种方式，我们的业务代码 (getComplexReport) 变得非常干净，它只关心 SQL 逻辑，而所有的追踪细节都被封装在 query 方法中。

最终成果：在 Jaeger 中分析链路

现在，当用户点击“生成报告”按钮后，一系列 Span 会被创建并发送到 Jaeger。在 Jaeger UI 中搜索 electron-local-reporter 服务，我们会看到一条完整的链路，它可能看起来像这样：

electron-local-reporter: action: generate-report (850ms)
|
`-- redux-middleware-tracer: action: generate-report (850ms)
    |
    `-- electron-app-tracer: worker: generate-report (780ms)
        |
        `-- electron-app-tracer: db: query (750ms)

这个视图一目了然：

整个操作耗时 850ms。
Action 本身的开销（Middleware 和 Saga 的调度）非常小（850ms - 780ms = 70ms）。
绝大部分时间（780ms）都消耗在了 Worker 线程中。
在 Worker 线程中，几乎所有的时间（750ms）又都花在了数据库查询上。

点击 db: query 这个 Span，我们可以在 Tags 标签页看到我们记录的属性，比如 db.statement，这让我们能够立刻知道是哪条 SQL 语句导致了性能问题。接下来，优化的方向就非常明确了：为 sales 表的 report_id 字段添加索引，或者优化这条聚合查询本身。

局限性与未来展望

这套方案虽然解决了最初的痛点，但在生产环境中应用还需要考虑更多。

一个明显的局限是手动上下文传播的脆弱性。如果开发人员在某个环节忘记传递 traceContext，链路就会在这里断裂。对于 Node.js 内部的异步调用，AsyncLocalStorage 可以很好地解决上下文自动传递问题，但在 postMessage 这种显式的进程边界上，目前似乎没有比手动传递更好的通用方法。这要求团队有良好的规范和代码审查。

另一个考量是采样。目前我们的实现追踪了每一次符合条件的 Action。对于高频操作，这会产生大量的追踪数据，给 Jaeger 和网络带来压力。在 OpenTelemetry SDK 中配置一个采样器（Sampler），例如 TraceIdRatioBasedSampler，只采集一部分请求（比如 10%），或者针对性地对耗时超过阈值的 Span 进行尾部采样，是生产环境的必经之路。

最后，这个模式的潜力不止于此。我们可以将追踪扩展到文件 I/O、网络同步请求等其他耗时操作，为整个桌面应用的性能分析提供一个前所未有的宏观视角。将微服务架构下的可观测性思想“降维”应用到单体应用内部，是一次非常有价值的尝试。

OpenTelemetry Jaeger Node.js SQLite Redux

通过JPA StatementInspector与ClickHouse构建高吞吐应用性能度量管道

2023-10-27 数据工程与存储

可观测性 ClickHouse JPA/Hibernate Jupyter 性能优化

在 GKE 上构建基于服务网格与 Loki 的 mTLS 握手失败无侵入审计管道

2023-10-27 云原生

Loki GCP GKE mTLS 分布式与中间件