基准框架
如何在没有虚荣指标的情况下对语音工作流程进行基准测试
此框架侧重于端到端的写作结果,而不是孤立的转录速度声明。使用这些维度来比较实际团队任务中的工具。
1. 捕获延迟
测量从捕获触发到目标应用程序字段中第一个可用文本的时间。记录至少 100 次运行中的 p50 和 p95。
2. 清理质量
评估清理后的输出是否保留了意图、语言和可操作性。使用来自工程、支持和产品团队的特定于领域的提示。
3. 工作流程完成速度
跟踪完成完整任务所需的时间:听写、清理、审查和发送。这通常是团队生产力影响最实用的指标。
4. 错误恢复行为
测试降级的网络和格式错误的音频路径。测量用户可以多快恢复并完成工作流程。
建议的报告格式
- 基准日期和环境详细信息。
- 任务组合(聊天、文档、工单、电子邮件)。
- p50/p95 工作流程完成时间。
- 人工审查的意图保留通过率。
- 前 3 种失败模式和缓解计划。