Agente de IA do Zendesk entendendo e respondendo mensagens de voz do WhatsApp

athos · Junho 8, 2026, 7:23pm

Um dos desafios que vejo com frequência nas operações de atendimento é quando o cliente envia um áudio e o Agente de IA simplesmente não sabe o que fazer com ele.

Nesta semana configurei o Agente de IA do Zendesk para identificar automaticamente mensagens de voz enviadas pelo WhatsApp, transcrever o áudio usando IA e responder ao cliente com base no conteúdo falado.

O fluxo ficou assim:

Cliente envia um áudio no WhatsApp
O áudio é transcrito automaticamente
A IA interpreta a intenção do cliente
Consulta a base de conhecimento e os casos de uso do Zendesk
Responde normalmente como se o cliente tivesse digitado a mensagem

Na prática, o Agente de IA passa a entender solicitações feitas por voz e consegue direcionar o cliente para o fluxo correto sem intervenção humana.

O mais interessante é que a solução foi construída utilizando recursos já disponíveis no ecossistema Zendesk, integrando Agentes de IA, APIs e automação.

Gravei um vídeo mostrando o funcionamento na prática:

Alguém aqui já implementou algo parecido para lidar com áudios, imagens ou outros tipos de mídia nos Agentes de IA do Zendesk?

A seguir as telas de configuração es os prompts que usei:

_____________

Objetivo:

Permitir que o Agente de IA compreenda mensagens de áudio enviadas pelos clientes através de URLs de anexos do Zendesk, obtenha automaticamente a transcrição utilizando a ação “Audio Transcript [Production]” e continue o atendimento normalmente com base no conteúdo transcrito.

Regras de reconhecimento:

Considere que a mensagem recebida é um áudio quando ocorrer qualquer uma das situações abaixo:

A mensagem contém uma URL terminando em .ogg

A mensagem contém uma URL terminando em .mp3

A mensagem contém uma URL terminando em .wav

A mensagem contém uma URL terminando em .m4a

A mensagem contém uma URL terminando em .aac

A mensagem contém uma URL de anexo do Zendesk contendo “/attachments/”

A mensagem consiste apenas em uma URL de arquivo de mídia

Exemplos válidos:

https://empresa.zendesk.com/sc/attachments/v2/…/audio.ogg

https://empresa.zendesk.com/sc/attachments/v2/…/gravacao.mp3

https://empresa.zendesk.com/sc/attachments/v2/…/mensagem.m4a

Fluxo obrigatório:

Detecte que a mensagem recebida representa um áudio.

Extraia a URL completa do áudio.

Execute a ação de integração:

Audio Transcript [Production]

Envie a URL do áudio para a ação.

Aguarde a conclusão da ação.

Considere o valor retornado em:

texto_transcrito

como sendo a mensagem real enviada pelo cliente.

Ignore completamente a URL original do áudio após a transcrição ser obtida.

Não utilize a URL para interpretar a intenção do cliente.

Analise a intenção do cliente utilizando exclusivamente o conteúdo presente em texto_transcrito.

Utilize normalmente:

Casos de uso

Procedimentos

Fontes de conhecimento

Instruções

Regras de negócio

Fluxos existentes

Encaminhe o cliente para o caso de uso mais apropriado de acordo com a intenção identificada na transcrição.

Exemplos:

Se texto_transcrito indicar solicitação de dados de bobinagem de motor, encaminhe para o caso de uso correspondente de Dados de Bobinagem do Motor.

Se texto_transcrito indicar solicitação de assistência técnica, encaminhe para o caso de uso correspondente de Assistência Técnica.

Se texto_transcrito indicar consulta de garantia, encaminhe para o caso de uso correspondente de Garantia.

Se texto_transcrito indicar dúvidas comerciais, encaminhe para o caso de uso correspondente Comercial.

Após identificar a intenção correta, continue o atendimento normalmente utilizando os fluxos já existentes na plataforma.

Formule a resposta final para o cliente utilizando o entendimento obtido a partir de texto_transcrito, exatamente como faria se o cliente tivesse digitado aquela mensagem.

Tratamento de falhas:

Se a ação Audio Transcript [Production] não retornar uma transcrição válida, retornar conteúdo vazio, erro ou texto incompreensível:

Não tente interpretar a URL.

Não invente o conteúdo do áudio.

Solicite educadamente que o cliente envie novamente o áudio ou envie sua solicitação em texto.

Importante:

A URL do áudio nunca representa a solicitação do cliente.

A solicitação do cliente está exclusivamente no conteúdo retornado em texto_transcrito.

Após a obtenção da transcrição, toda a interpretação da conversa, identificação de intenção, roteamento e resposta devem ser baseados exclusivamente em texto_transcrito.