Um dos desafios que vejo com frequência nas operações de atendimento é quando o cliente envia um áudio e o Agente de IA simplesmente não sabe o que fazer com ele.
Nesta semana configurei o Agente de IA do Zendesk para identificar automaticamente mensagens de voz enviadas pelo WhatsApp, transcrever o áudio usando IA e responder ao cliente com base no conteúdo falado.
O fluxo ficou assim:
Cliente envia um áudio no WhatsApp
O áudio é transcrito automaticamente
A IA interpreta a intenção do cliente
Consulta a base de conhecimento e os casos de uso do Zendesk
Responde normalmente como se o cliente tivesse digitado a mensagem
Na prática, o Agente de IA passa a entender solicitações feitas por voz e consegue direcionar o cliente para o fluxo correto sem intervenção humana.
O mais interessante é que a solução foi construída utilizando recursos já disponíveis no ecossistema Zendesk, integrando Agentes de IA, APIs e automação.
Gravei um vídeo mostrando o funcionamento na prática:
Alguém aqui já implementou algo parecido para lidar com áudios, imagens ou outros tipos de mídia nos Agentes de IA do Zendesk?
A seguir as telas de configuração es os prompts que usei:
_____________
Objetivo:
Permitir que o Agente de IA compreenda mensagens de áudio enviadas pelos clientes através de URLs de anexos do Zendesk, obtenha automaticamente a transcrição utilizando a ação “Audio Transcript [Production]” e continue o atendimento normalmente com base no conteúdo transcrito.
Regras de reconhecimento:
Considere que a mensagem recebida é um áudio quando ocorrer qualquer uma das situações abaixo:
A mensagem contém uma URL terminando em .ogg
A mensagem contém uma URL terminando em .mp3
A mensagem contém uma URL terminando em .wav
A mensagem contém uma URL terminando em .m4a
A mensagem contém uma URL terminando em .aac
A mensagem contém uma URL de anexo do Zendesk contendo “/attachments/”
A mensagem consiste apenas em uma URL de arquivo de mídia
Exemplos válidos:
https://empresa.zendesk.com/sc/attachments/v2/…/audio.ogg
https://empresa.zendesk.com/sc/attachments/v2/…/gravacao.mp3
https://empresa.zendesk.com/sc/attachments/v2/…/mensagem.m4a
Fluxo obrigatório:
Detecte que a mensagem recebida representa um áudio.
Extraia a URL completa do áudio.
Execute a ação de integração:
Audio Transcript [Production]
Envie a URL do áudio para a ação.
Aguarde a conclusão da ação.
Considere o valor retornado em:
texto_transcrito
como sendo a mensagem real enviada pelo cliente.
Ignore completamente a URL original do áudio após a transcrição ser obtida.
Não utilize a URL para interpretar a intenção do cliente.
Analise a intenção do cliente utilizando exclusivamente o conteúdo presente em texto_transcrito.
Utilize normalmente:
Casos de uso
Procedimentos
Fontes de conhecimento
Instruções
Regras de negócio
Fluxos existentes
- Encaminhe o cliente para o caso de uso mais apropriado de acordo com a intenção identificada na transcrição.
Exemplos:
Se texto_transcrito indicar solicitação de dados de bobinagem de motor, encaminhe para o caso de uso correspondente de Dados de Bobinagem do Motor.
Se texto_transcrito indicar solicitação de assistência técnica, encaminhe para o caso de uso correspondente de Assistência Técnica.
Se texto_transcrito indicar consulta de garantia, encaminhe para o caso de uso correspondente de Garantia.
Se texto_transcrito indicar dúvidas comerciais, encaminhe para o caso de uso correspondente Comercial.
Após identificar a intenção correta, continue o atendimento normalmente utilizando os fluxos já existentes na plataforma.
Formule a resposta final para o cliente utilizando o entendimento obtido a partir de texto_transcrito, exatamente como faria se o cliente tivesse digitado aquela mensagem.
Tratamento de falhas:
Se a ação Audio Transcript [Production] não retornar uma transcrição válida, retornar conteúdo vazio, erro ou texto incompreensível:
Não tente interpretar a URL.
Não invente o conteúdo do áudio.
Solicite educadamente que o cliente envie novamente o áudio ou envie sua solicitação em texto.
Importante:
A URL do áudio nunca representa a solicitação do cliente.
A solicitação do cliente está exclusivamente no conteúdo retornado em texto_transcrito.
Após a obtenção da transcrição, toda a interpretação da conversa, identificação de intenção, roteamento e resposta devem ser baseados exclusivamente em texto_transcrito.





