TypeHop logoTypeHop

基准框架

如何在没有虚荣指标的情况下对语音工作流程进行基准测试

此框架侧重于端到端的写作结果,而不是孤立的转录速度声明。使用这些维度来比较实际团队任务中的工具。

1. 捕获延迟

测量从捕获触发到目标应用程序字段中第一个可用文本的时间。记录至少 100 次运行中的 p50 和 p95。

2. 清理质量

评估清理后的输出是否保留了意图、语言和可操作性。使用来自工程、支持和产品团队的特定于领域的提示。

3. 工作流程完成速度

跟踪完成完整任务所需的时间:听写、清理、审查和发送。这通常是团队生产力影响最实用的指标。

4. 错误恢复行为

测试降级的网络和格式错误的音频路径。测量用户可以多快恢复并完成工作流程。

建议的报告格式