ベンチマークフレームワーク
虚栄心の指標なしで音声ワークフローをベンチマークする方法
このフレームワークは、孤立した文字起こし速度の主張ではなく、エンドツーエンドの執筆結果に焦点を当てています。これらのディメンションを使用して、現実的なチームタスクでツールを比較します。
1. キャプチャの遅延
キャプチャトリガーからターゲットアプリのフィールドに最初の使用可能なテキストが表示されるまでの時間を測定します。少なくとも100回の実行でp50とp95を記録します。
2. クリーンアップの品質
クリーンアップされた出力が意図、言語、および実行可能性を保持しているかどうかを評価します。エンジニアリング、サポート、および製品チームからのドメイン固有のプロンプトを使用します。
3. ワークフローの完了速度
タスク全体の完了にかかる時間を追跡します:口述、クリーンアップ、レビュー、および送信。これは通常、チームの生産性への影響に関する最も実用的な指標です。
4. エラー回復の動作
ネットワークの劣化と不正なオーディオパスをテストします。ユーザーがどれだけ早く回復してワークフローを完了できるかを測定します。
推奨されるレポート形式
- ベンチマークの日付と環境の詳細。
- タスクの組み合わせ(チャット、ドキュメント、チケット、メール)。
- p50/p95ワークフローの完了時間。
- 人間のレビューによる意図保持の合格率。
- 上位3つの障害モードと軽減計画。