walledeo
本站致力于IT相关技术的分享
构建基于OpenTelemetry的PyTorch模型全链路可观测性与组件化调试方案 构建基于OpenTelemetry的PyTorch模型全链路可观测性与组件化调试方案
一个训练好的PyTorch模型部署到生产环境后,往往会迅速变成一个难以捉摸的黑盒。我们团队遇到的问题很典型:一个图像字幕生成模型的API,在某些请求下响应异常缓慢,或者生成质量不符合预期的文本。传统的日志打印 (print 或 loggin
2023-10-27
实现从Playwright E2E测试到Jaeger后端链路的端到端追踪关联 实现从Playwright E2E测试到Jaeger后端链路的端到端追踪关联
一个端到端(E2E)测试失败了。CI/CD流水线亮起红灯,日志里只有一条冰冷的信息:“POST /api/users failed with status 500”。接下来呢?是前端的请求体构造错误,还是API网关出了问题?是某个下游微服务
2023-10-27
在 Kubernetes 中使用 C# Operator 编排一个集成 NumPy 的遥测数据异常检测流 在 Kubernetes 中使用 C# Operator 编排一个集成 NumPy 的遥测数据异常检测流
团队内部的服务在 Kubernetes 上运行久了,基于 Prometheus 和 Grafana 的标准可观测性栈已经成了标配。但这套体系对于我们一个核心交易服务来说,渐渐显得力不从心。问题在于,它的告警逻辑大多基于静态阈值,比如“CPU
2023-10-27
基于ActiveMQ与Chakra UI构建Jib容器化CV处理管道的实时监控系统 基于ActiveMQ与Chakra UI构建Jib容器化CV处理管道的实时监控系统
一个基于计算机视觉(CV)的图像审核服务最近遇到了瓶颈。任务提交后,业务方无法实时了解处理进度,只能被动等待结果。当任务处理延迟时,我们无法快速定位瓶颈是在消息队列积压,还是在CV模型推理缓慢。缺乏端到端的可观测性,让整个系统成了一个黑盒。
构建一个由MapReduce驱动的CQRS读写分离架构 构建一个由MapReduce驱动的CQRS读写分离架构
我们面临的初始场景并不罕见:一个运行了数年的核心分析平台,其数据心脏是一个庞大的Hadoop集群。每天凌晨,TB级的原始日志通过MapReduce作业进行聚合、转换,最终生成一系列覆盖业务全景的报表数据,存储在HDFS上。业务方对这些报表的
基于 Actix-web 与 Consul 构建 Grafana 动态日志关联面板的实践 基于 Actix-web 与 Consul 构建 Grafana 动态日志关联面板的实践
技术痛点:隔离的数据孤岛在复杂的微服务环境中,Grafana、Loki 和 Consul 是我们的标准技术栈。Grafana 负责展示,Loki 存储海量日志,Consul 管理服务发现和配置。日常排障时,我们面临一个典型困境:在 Loki
2023-10-27
2 / 5