Pular para o conteúdo

Transcrição e resumo com IA

Texto completo da chamada (com timestamps e falante) + resumo automático em 3-5 bullets, gerado por IA pós-call. Útil pra prontuário, ata de reunião e revisão rápida do que foi conversado.

5 minAtualizado em 06/05/2026

A transcrição é o texto completo do que foi falado na chamada — com timestamps e identificação de quem falou (você ou cliente). O resumo IA é uma síntese automática em 3-5 bullets do que aconteceu. Ambos são gerados pós-call (depois que a chamada termina).

Pré-requisito: gravação ativa

Transcrição e resumo só funcionam em chamadas que foram gravadas (Whisper precisa do áudio). Se você não grava, esses 2 features também não acontecem.

O sentimento real-time é diferente — ele captura ao vivo durante a chamada (independente de gravação) e persiste pra replay sincronizado. Ver Sentimento real-time.

Como ligar

Em Configurações → Vídeo atendimento (/configuracoes/video), toggle "Transcrição automática" = ON.

Quando ativo:

  • Após cada chamada gravada terminar, o cron video-recordings-poll (a cada 30min) baixa o MP4 do Daily
  • Envia o áudio pra OpenAI Whisper (modelo whisper-1, idioma PT-BR detectado automático)
  • Recebe a transcrição com timestamps e quem falou
  • Salva em video_sessoes.transcricao_texto

Em seguida, dispara o resumo:

  • Envia a transcrição (até 8.000 chars) pro OpenRouter (modelo gpt-4.1-mini)
  • Pede resumo executivo em 3-5 bullets curtos (máximo 400 chars total)
  • Salva em video_sessoes.resumo_texto

Tempo total após chamada terminar: 5-30 minutos (depende do tamanho da chamada e do ciclo do cron).

Onde acessar

No PlayerModal (assistir)

Quando você abre ▶ Assistir no detalhe do agendamento (ou histórico):

  • Painel lateral (desktop) ou abaixo (mobile): lista de transcrição clicável
  • Cada parágrafo mostra timestamp + falante (você / cliente) + texto
  • Click num trecho: pula o vídeo pra esse momento exato
  • Resumo IA: caixa destacada no topo com os 3-5 bullets
  • Botão CC (atalho C): toggle captions overlay (transcrição como legenda no vídeo)

Inline no detalhe do agendamento

No bloco "Gravação" do detalhe do agendamento:

  • Se gravação ainda disponível (não expirou): preview do resumo + botão "Ver transcrição completa" (abre o player)
  • Se gravação já expirou mas texto sobrevive: cards inline expansíveis "Ver resumo" / "Ver transcrição"

Histórico (/configuracoes/video/historico)

Lista cronológica + busca textual nos resumos. Útil pra encontrar "aquela chamada onde a Maria falou sobre tal assunto" sem precisar lembrar quando foi.

Idioma PT-BR automático

O Whisper detecta o idioma automaticamente. Em PT-BR funciona muito bem — taxa de erro próxima a humana em condições boas (áudio nítido, 1 falante por vez).

Outras línguas: o Whisper suporta dezenas de idiomas. Se você atende cliente em espanhol/inglês, vai transcrever na língua original (não traduz). O resumo IA segue a língua da transcrição.

Se chamada teve mistura (50% PT + 50% inglês), Whisper escolhe a língua dominante e pode falhar partes. Em consultas multilíngue, vale gravar separadamente cada parte.

Custo

Transcrição e resumo consomem créditos OpenAI/OpenRouter — incluídos no preço do add-on de vídeo (R$ 0,30/min) sem cobrança extra. Por chamada média de 30min:

  • Whisper: ~$0.006/min × 30 = ~$0.18 (R$ 0,90)
  • OpenRouter resumo: ~$0.001 (R$ 0,005)
  • Total: ~R$ 0,90 (já incluído nos R$ 9,00 do add-on da chamada)

Se você desliga transcrição automática mas mantém gravação ativa, economiza esse custo. A análise pós-call é opcional.

Casos de uso

🩺 Prontuário médico

Pegue o resumo IA + cole no prontuário do paciente como anotação principal. Use a transcrição completa como anexo se precisar do detalhe.

⚖️ Ata de reunião jurídica

Resumo IA dá visão executiva do que foi acordado. Transcrição completa serve como prova caso o cliente conteste algo no futuro.

🎓 Aulas online com revisão

Aluno revisa aula via player com captions ligadas (acessibilidade). Resumo IA serve como "índice rápido" do que cada aula cobriu.

🧾 Atendimento ao cliente

Resumo IA na ficha do cliente: histórico de cada vídeo atendimento ranqueado por data. CRM enriquecido sem trabalho extra.

🔍 Revisão de qualidade interna

Dono ou supervisor revisa chamadas filtrando por palavras-chave (busca no histórico). Acha rapidinho casos relevantes.

Edge cases — quando não funciona bem

Áudio ruim

Whisper depende da qualidade do áudio:

  • Eco / mic com chiado: transcrição fica com erros pontuais ("ouve" pode virar "houve" ou "houve" virar "ove")
  • Sobreposição de vozes (ambos falando ao mesmo tempo): perde uma das falas
  • Volume baixo: pode falhar trechos inteiros (silêncio percebido)

Solução: garantir mic decente nas duas pontas. Headset USB melhora dramaticamente.

Jargão técnico ou nomes próprios

  • Termos médicos / jurídicos / tecnológicos podem ser "adivinhados" pra palavras comuns (ex: "broncoaspiração" pode virar "bronquite")
  • Nomes próprios incomuns viram nomes parecidos (ex: "Boukje" pode virar "Bujki" ou "Bouquê")

Solução: revise transcrições críticas antes de usar como prova legal. Resumo IA é mais confiável (ele entende contexto e corrige).

Múltiplas vozes

Se 3+ pessoas falam alternadamente, Whisper às vezes confunde quem disse o quê. O Daily ajuda fornecendo speaker tags, mas em chamadas com muitos participantes a confiabilidade cai.

Áudio com música/barulho de fundo

Música tocando no escritório → transcrição pega trechos da letra como "fala". Solução: silenciar ambiente.

O que sobrevive após gravação expirar (30d)

Mesmo após a gravação MP4 ser removida do storage Daily aos 30 dias:

ItemSobrevive?
Vídeo MP4❌ Não
Player (botão Assistir)❌ Não
Transcrição texto✅ Sim (preservada no DB)
Resumo IA texto✅ Sim (preservado no DB)
Histórico da chamada✅ Sim
Sentimento timeline✅ Sim

Útil: o que importa legalmente (transcrição + resumo) fica para sempre — só o vídeo é removido pra liberar storage.

Sem live captions (decisão arquitetural)

Decidimos não implementar transcrição/captions ao vivo durante a chamada. Razões:

  1. Custo escala feio: $0.01/min adicional × cada participante × duração = pode multiplicar o custo da chamada por 4-5x
  2. Latência atrapalha: live caption tem delay de 1-3s, fica fora de sync com o vídeo
  3. Replay já cobre: transcrição completa fica disponível 5-30min depois, com sync perfeito (RN-V07)

Se um dia OpenAI/Whisper barateiarem live captioning, reavaliamos.

Próximos artigos

Esse artigo foi útil?

Ainda não usa a Kontato?

Trial grátis · sem cartão de crédito · cancele quando quiser.

Criar conta grátis