벤치마크 프레임워크
허영심 지표 없이 음성 워크플로우를 벤치마킹하는 방법
이 프레임워크는 격리된 전사 속도 주장이 아닌 엔드투엔드 쓰기 결과에 중점을 둡니다. 이러한 차원을 사용하여 현실적인 팀 작업에서 도구를 비교하십시오.
1. 캡처 대기 시간
캡처 트리거에서 대상 앱 필드의 첫 번째 사용 가능한 텍스트까지의 시간을 측정합니다. 최소 100회 실행에서 p50 및 p95를 기록합니다.
2. 정리 품질
정리된 출력이 의도, 언어 및 실행 가능성을 보존하는지 평가합니다. 엔지니어링, 지원 및 제품 팀의 도메인별 프롬프트를 사용하십시오.
3. 워크플로우 완료 속도
전체 작업(받아쓰기, 정리, 검토 및 보내기)을 완료하는 데 걸리는 시간을 추적합니다. 이것은 일반적으로 팀 생산성 영향에 대한 가장 실용적인 지표입니다.
4. 오류 복구 동작
저하된 네트워크 및 잘못된 오디오 경로를 테스트합니다. 사용자가 얼마나 빨리 복구하고 워크플로우를 완료할 수 있는지 측정합니다.
제안된 보고 형식
- 벤치마크 날짜 및 환경 세부 정보.
- 작업 조합(채팅, 문서, 티켓, 이메일).
- p50/p95 워크플로우 완료 시간.
- 인간 검토에서 의도 보존 합격률.
- 상위 3가지 실패 모드 및 완화 계획.