分布式系统中如何实现全链路追踪？ -

题目

分布式系统中如何实现全链路追踪？

信息

类型：问答
难度：⭐⭐

考点

Trace/Span模型,上下文传递机制,采样策略,跨服务数据关联

快速回答

实现全链路追踪的核心要点：

Trace/Span模型：Trace代表完整请求链路，Span是基本工作单元
上下文传递：通过HTTP Headers或RPC上下文传递TraceID/SpanID
采样策略：根据业务需求选择恒定采样/动态采样等策略
数据关联：使用ParentSpanID建立跨服务调用关系
可视化：将Span数据上报至Zipkin/Jaeger等可视化平台

## 解析

一、核心原理

Trace/Span模型：

Trace：唯一标识（TraceID）贯穿整个请求链路
Span：基本工作单元，包含：
- 操作名称、开始/结束时间
- SpanID（当前Span唯一ID）
- ParentSpanID（父SpanID，用于建立层级）
- Tags（业务自定义标签）
- Logs（事件日志）

二、上下文传递实现

跨服务传播示例（HTTP）：

// 服务A发起请求时注入Header
HttpHeaders headers = new HttpHeaders();
headers.add("X-B3-TraceId", currentSpan.context().traceId());
headers.add("X-B3-SpanId", currentSpan.context().spanId());

// 服务B接收请求时提取
SpanContext context = SpanContext.createFromHeaders(headers);
Span childSpan = tracer.buildSpan("serviceB_operation")
                 .asChildOf(context)
                 .start();

常见传递协议：

HTTP：X-B3-TraceId/X-B3-SpanId（Zipkin标准）
gRPC：metadata携带trace上下文
消息队列：在消息属性中附加TraceID

三、采样策略

策略类型	说明	适用场景
恒定采样	固定比例采样（如10%）	测试环境/低流量系统
动态采样	根据QPS自动调整采样率	高并发生产环境
限流采样	每秒最多N条Trace	保护追踪系统
业务标记采样	根据特定Tag决定采样	重点业务监控

四、最佳实践

异步调用处理：

// 显式传递上下文
CompletableFuture.runAsync(() -> {
  try (Scope scope = tracer.scopeManager().activate(span)) {
    // 异步任务逻辑
  }
});

关键标签标记：记录HTTP状态码、DB查询语句、异常信息等
耗时分析：通过Span起止时间定位性能瓶颈
日志关联：在业务日志中输出TraceID实现日志聚合

五、常见错误

上下文丢失：未正确处理异步调用或线程池切换
过度采样：高流量下全量采样导致追踪系统过载
ID生成冲突：TraceID未使用足够随机数（推荐128位）
数据不一致：各服务系统时钟未同步影响耗时计算

六、扩展知识

OpenTelemetry：CNCF标准，替代OpenTracing/OpenCensus
服务网格集成：通过Istio等Sidecar自动实现链路追踪
智能分析：基于Trace数据的异常检测（如突然耗时增加）
分布式追踪系统：
- Zipkin：轻量级，基于Thrift/JSON
- Jaeger：支持OpenTracing，内置Spark分析
- SkyWalking：APM系统，集成指标监控