Benchmark Framework
Como comparar fluxos de trabalho de voz sem métricas de vaidade
Esta estrutura se concentra nos resultados de escrita de ponta a ponta, não em alegações isoladas de velocidade de transcrição. Use estas dimensões para comparar ferramentas em tarefas de equipe realistas.
1. Latência de captura
Meça o tempo desde o gatilho de captura até o primeiro texto utilizável no campo do aplicativo de destino. Registre p50 e p95 em pelo menos 100 execuções.
2. Qualidade de limpeza
Avalie se a saída limpa preserva a intenção, a linguagem e a capacidade de ação. Use prompts específicos do domínio das equipes de engenharia, suporte e produto.
3. Velocidade de conclusão do fluxo de trabalho
Rastreie quanto tempo leva para concluir uma tarefa completa: ditar, limpar, revisar e enviar. Esta é geralmente a métrica mais prática para o impacto na produtividade da equipe.
4. Comportamento de recuperação de erro
Teste caminhos de rede degradados e áudio malformado. Meça a rapidez com que os usuários podem se recuperar e concluir o fluxo de trabalho.
Formato de relatório sugerido
- Data de benchmark e detalhes do ambiente.
- Mistura de tarefas (chat, documentos, tickets, e-mail).
- Tempo de conclusão do fluxo de trabalho p50/p95.
- Taxa de aprovação de preservação de intenção da revisão humana.
- 3 principais modos de falha e plano de mitigação.