淄博市网站建设_网站建设公司_Java_seo优化
2026/1/16 16:42:18 网站建设 项目流程

8.1 AI可观测

8.1.1 什么是AI可观测

AI应用具有非确定性,即便是相同的提示,在不同次的运行中也可能产生不同的输出。如果没有可观测,在发生幻觉虚假错误等严重问题时根本无从查起。相反,一个好用的可观测工具会记录每一次的提示与响应、追踪使用模式,并标记异常。AI可观测是确保AI应用高效稳定安全运行的基础能力。

8.1.2 可观测 vs 监控:从“是什么”到“为什么”

监控关注“什么”:比如API响应时间、错误率、请求吞吐量和Token使用量等指标。

可观测性探究“为什么”:比如一个聊天机器人的回答不正确且耗时过长,监控可能只会显示错误率上升或延迟过高,但可观测能揭示为什么:可能是一次长时间的RAG请求最终得到了错误的召回,导致模型给出不准确的答案。

AI应用的每一次请求,都可以被弯针的追溯,包括调用工具的出入参、发送给大模型的具体提示词、任何中间步骤(如调用数据库或其他API),以及最终收到的输出。可观测工具就可以提供极其丰富的排查数据和上下文,帮助定位问题的根因。

8.1.3 AI可观测应对的核心挑战

性能与可靠性问题:大模型是资源密集型的,延迟峰值和瓶颈时有发生。

成本问题:许多大模型服务按Token使用量收费,若无控制,成本可能意外飙升。

质量问题:大模型的可能输出从训练数据中继承偏见或有害内容,也很可能产生幻觉。

8.1.4 AI可观测解决方案的关键能力

端到端全链路追踪:提供端到端的日志采集和链路追踪,可视化请求在整个AI应用中的执行路径。

全栈可观测:包含应用、AI网关、推理引擎可观测3个维度。

自动化评估功能:通过引入评估Agent,对应用和模型的输入输出进行自动化的评估,检测幻觉、不一致或答案质量下降等问题。

8.2 端到端全链路追踪

一个典型的LLM应用架构可能包含用户终端、认证模块、会话管理、对话服务、大模型路由、流程编排等。需要具备3项可观测能力:标准化的数据语义规范、低成本高质量的数据采集、端到端全链路追踪。

8.2.1 端到端全链路追踪的实现方式

面向AI应用的领域化Trace语义

基于OpenTelemetry的高质量数据采集

标准化协议

8.2.2 核心技术路径

1、链路插桩技术

Python探针,Monkey Patch

Java探针,字节码增强技术。

Go探针,编译时插桩技术。

多语言兼容,其他语言通过OpenTelemetry开源框架支持。

2、链路采集与加工

数据采集策略

流式场景优化

3、LLM Trace查询与分析

全链路透视

高级过滤

智能诊断

8.3 全栈可观测:应用可观测

8.3.1 AI原生应用开发的痛点

工具选择盲区、错误排除困难、Token消耗黑洞、循环调用陷阱。

8.3.2 AI原生应用可观测需要具备哪些能力

零代码接入、可视化工具选择过程、精准故障定位、Token成本分析、端到端链路追踪。

8.3.3 演示场景架构

使用LangChain框架构建一个Agent,大模型使用Qwen Turbo。SLS MCP服务器通过SLS HTTP OpenAPI访问日志的接口,完成日志分析请求。LangChain Agent与MCP服务器产生的观测数据会自动采集到可观测平台中。

8.3.4 场景演示

1、启动SLS MCP服务器

2、启动Langchain Agent程序

3、Agent观测

4、MCP观测

8.4 全栈可观测:AI网关可观测

8.4.1 观测场景:AI组件的多维可观测需求

1、性能与稳定性监控:保障AI应用的高可用

关键性能指标:QPS、请求成功率、响应时间、流式与非流式请求分布。

2、资源消耗与成本分析:实现精细化成本管控

Token消耗数/s、按模型维度的Token使用统计、按消费者维度的Token使用统计。

3、安全与合规审计:防范数据泄露与内容风险

内容安全拦截日志、风险类型统计、风险消费者统计。

4、治理策略执行追踪:确保限流、缓存、Fallback有效落地

限流统计、缓存命中情况、Fallback执行路径。

5、多租户与权限治理:实现调用者的精细化管理

消费者身份识别、消费者级指标统计、异常消费者检测。

8.4.2 观测实践:基于AI网关的可观测体系构建

1、观测数据:统一日志与指标

2、可视化监控:多维度仪表盘

3、深度分析:基于日志查询与SQL分析

4、智能告警与自动化响应

5、成本优化与治理闭环

8.5 全栈可观测:推理引擎可观测

推理引擎,是AI算法和软硬件系统之间的桥梁,其主要功能包括优化LLM的性能以确保快速准确的推理、管理GPU内存等硬件资源、提供分布式和可扩展能力等。常见的推理引擎有vLLM、SGLang等。

8.5.1 推理引擎需要观测什么

推理引擎vLLM的整体架构如下图:

以下是API Server、模型输入输出、推理过程、推理引擎状态4个维度常见的观测项和含义:

8.5.2 推理引擎需可观测的实践

首Token时间(TTFT)对客户体验比较重要。如果观测到比较大的TTFT,可以从提示词长度、并发请求排队、KV Cache使用率等因素去优化。

参考资料:

https://developer.aliyun.com/ebook/8479

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询