A transcrição é o texto completo do que foi falado na chamada — com timestamps e identificação de quem falou (você ou cliente). O resumo IA é uma síntese automática em 3-5 bullets do que aconteceu. Ambos são gerados pós-call (depois que a chamada termina).
Pré-requisito: gravação ativa
Transcrição e resumo só funcionam em chamadas que foram gravadas (Whisper precisa do áudio). Se você não grava, esses 2 features também não acontecem.
O sentimento real-time é diferente — ele captura ao vivo durante a chamada (independente de gravação) e persiste pra replay sincronizado. Ver Sentimento real-time.
Como ligar
Em Configurações → Vídeo atendimento (/configuracoes/video), toggle "Transcrição automática" = ON.
Quando ativo:
- Após cada chamada gravada terminar, o cron
video-recordings-poll(a cada 30min) baixa o MP4 do Daily - Envia o áudio pra OpenAI Whisper (modelo
whisper-1, idioma PT-BR detectado automático) - Recebe a transcrição com timestamps e quem falou
- Salva em
video_sessoes.transcricao_texto
Em seguida, dispara o resumo:
- Envia a transcrição (até 8.000 chars) pro OpenRouter (modelo
gpt-4.1-mini) - Pede resumo executivo em 3-5 bullets curtos (máximo 400 chars total)
- Salva em
video_sessoes.resumo_texto
Tempo total após chamada terminar: 5-30 minutos (depende do tamanho da chamada e do ciclo do cron).
Onde acessar
No PlayerModal (assistir)
Quando você abre ▶ Assistir no detalhe do agendamento (ou histórico):
- Painel lateral (desktop) ou abaixo (mobile): lista de transcrição clicável
- Cada parágrafo mostra timestamp + falante (você / cliente) + texto
- Click num trecho: pula o vídeo pra esse momento exato
- Resumo IA: caixa destacada no topo com os 3-5 bullets
- Botão CC (atalho C): toggle captions overlay (transcrição como legenda no vídeo)
Inline no detalhe do agendamento
No bloco "Gravação" do detalhe do agendamento:
- Se gravação ainda disponível (não expirou): preview do resumo + botão "Ver transcrição completa" (abre o player)
- Se gravação já expirou mas texto sobrevive: cards inline expansíveis "Ver resumo" / "Ver transcrição"
Histórico (/configuracoes/video/historico)
Lista cronológica + busca textual nos resumos. Útil pra encontrar "aquela chamada onde a Maria falou sobre tal assunto" sem precisar lembrar quando foi.
Idioma PT-BR automático
O Whisper detecta o idioma automaticamente. Em PT-BR funciona muito bem — taxa de erro próxima a humana em condições boas (áudio nítido, 1 falante por vez).
Outras línguas: o Whisper suporta dezenas de idiomas. Se você atende cliente em espanhol/inglês, vai transcrever na língua original (não traduz). O resumo IA segue a língua da transcrição.
Se chamada teve mistura (50% PT + 50% inglês), Whisper escolhe a língua dominante e pode falhar partes. Em consultas multilíngue, vale gravar separadamente cada parte.
Custo
Transcrição e resumo consomem créditos OpenAI/OpenRouter — incluídos no preço do add-on de vídeo (R$ 0,30/min) sem cobrança extra. Por chamada média de 30min:
- Whisper: ~$0.006/min × 30 = ~$0.18 (R$ 0,90)
- OpenRouter resumo: ~$0.001 (R$ 0,005)
- Total: ~R$ 0,90 (já incluído nos R$ 9,00 do add-on da chamada)
Se você desliga transcrição automática mas mantém gravação ativa, economiza esse custo. A análise pós-call é opcional.
Casos de uso
🩺 Prontuário médico
Pegue o resumo IA + cole no prontuário do paciente como anotação principal. Use a transcrição completa como anexo se precisar do detalhe.
⚖️ Ata de reunião jurídica
Resumo IA dá visão executiva do que foi acordado. Transcrição completa serve como prova caso o cliente conteste algo no futuro.
🎓 Aulas online com revisão
Aluno revisa aula via player com captions ligadas (acessibilidade). Resumo IA serve como "índice rápido" do que cada aula cobriu.
🧾 Atendimento ao cliente
Resumo IA na ficha do cliente: histórico de cada vídeo atendimento ranqueado por data. CRM enriquecido sem trabalho extra.
🔍 Revisão de qualidade interna
Dono ou supervisor revisa chamadas filtrando por palavras-chave (busca no histórico). Acha rapidinho casos relevantes.
Edge cases — quando não funciona bem
Áudio ruim
Whisper depende da qualidade do áudio:
- Eco / mic com chiado: transcrição fica com erros pontuais ("ouve" pode virar "houve" ou "houve" virar "ove")
- Sobreposição de vozes (ambos falando ao mesmo tempo): perde uma das falas
- Volume baixo: pode falhar trechos inteiros (silêncio percebido)
Solução: garantir mic decente nas duas pontas. Headset USB melhora dramaticamente.
Jargão técnico ou nomes próprios
- Termos médicos / jurídicos / tecnológicos podem ser "adivinhados" pra palavras comuns (ex: "broncoaspiração" pode virar "bronquite")
- Nomes próprios incomuns viram nomes parecidos (ex: "Boukje" pode virar "Bujki" ou "Bouquê")
Solução: revise transcrições críticas antes de usar como prova legal. Resumo IA é mais confiável (ele entende contexto e corrige).
Múltiplas vozes
Se 3+ pessoas falam alternadamente, Whisper às vezes confunde quem disse o quê. O Daily ajuda fornecendo speaker tags, mas em chamadas com muitos participantes a confiabilidade cai.
Áudio com música/barulho de fundo
Música tocando no escritório → transcrição pega trechos da letra como "fala". Solução: silenciar ambiente.
O que sobrevive após gravação expirar (30d)
Mesmo após a gravação MP4 ser removida do storage Daily aos 30 dias:
| Item | Sobrevive? |
|---|---|
| Vídeo MP4 | ❌ Não |
| Player (botão Assistir) | ❌ Não |
| Transcrição texto | ✅ Sim (preservada no DB) |
| Resumo IA texto | ✅ Sim (preservado no DB) |
| Histórico da chamada | ✅ Sim |
| Sentimento timeline | ✅ Sim |
Útil: o que importa legalmente (transcrição + resumo) fica para sempre — só o vídeo é removido pra liberar storage.
Sem live captions (decisão arquitetural)
Decidimos não implementar transcrição/captions ao vivo durante a chamada. Razões:
- Custo escala feio: $0.01/min adicional × cada participante × duração = pode multiplicar o custo da chamada por 4-5x
- Latência atrapalha: live caption tem delay de 1-3s, fica fora de sync com o vídeo
- Replay já cobre: transcrição completa fica disponível 5-30min depois, com sync perfeito (RN-V07)
Se um dia OpenAI/Whisper barateiarem live captioning, reavaliamos.
Próximos artigos
- Gravação — pré-requisito da transcrição
- Sentimento real-time — análise ao vivo
- Histórico e relatórios — busca cronológica