Agente de IA do Zendesk entendendo e respondendo mensagens de voz do WhatsApp

Um dos desafios que vejo com frequência nas operações de atendimento é quando o cliente envia um áudio e o Agente de IA simplesmente não sabe o que fazer com ele.

Nesta semana configurei o Agente de IA do Zendesk para identificar automaticamente mensagens de voz enviadas pelo WhatsApp, transcrever o áudio usando IA e responder ao cliente com base no conteúdo falado.

O fluxo ficou assim:

:mobile_phone_with_arrow: Cliente envia um áudio no WhatsApp
:studio_microphone: O áudio é transcrito automaticamente
:brain: A IA interpreta a intenção do cliente
:books: Consulta a base de conhecimento e os casos de uso do Zendesk
:speech_balloon: Responde normalmente como se o cliente tivesse digitado a mensagem

Na prática, o Agente de IA passa a entender solicitações feitas por voz e consegue direcionar o cliente para o fluxo correto sem intervenção humana.

O mais interessante é que a solução foi construída utilizando recursos já disponíveis no ecossistema Zendesk, integrando Agentes de IA, APIs e automação.

Gravei um vídeo mostrando o funcionamento na prática:

Alguém aqui já implementou algo parecido para lidar com áudios, imagens ou outros tipos de mídia nos Agentes de IA do Zendesk?

A seguir as telas de configuração es os prompts que usei:

_____________

Objetivo:

Permitir que o Agente de IA compreenda mensagens de áudio enviadas pelos clientes através de URLs de anexos do Zendesk, obtenha automaticamente a transcrição utilizando a ação “Audio Transcript [Production]” e continue o atendimento normalmente com base no conteúdo transcrito.

Regras de reconhecimento:

Considere que a mensagem recebida é um áudio quando ocorrer qualquer uma das situações abaixo:

  • A mensagem contém uma URL terminando em .ogg

  • A mensagem contém uma URL terminando em .mp3

  • A mensagem contém uma URL terminando em .wav

  • A mensagem contém uma URL terminando em .m4a

  • A mensagem contém uma URL terminando em .aac

  • A mensagem contém uma URL de anexo do Zendesk contendo “/attachments/”

  • A mensagem consiste apenas em uma URL de arquivo de mídia

Exemplos válidos:

https://empresa.zendesk.com/sc/attachments/v2/…/audio.ogg

https://empresa.zendesk.com/sc/attachments/v2/…/gravacao.mp3

https://empresa.zendesk.com/sc/attachments/v2/…/mensagem.m4a

Fluxo obrigatório:

  1. Detecte que a mensagem recebida representa um áudio.

  2. Extraia a URL completa do áudio.

  3. Execute a ação de integração:

Audio Transcript [Production]

  1. Envie a URL do áudio para a ação.

  2. Aguarde a conclusão da ação.

  3. Considere o valor retornado em:

texto_transcrito

como sendo a mensagem real enviada pelo cliente.

  1. Ignore completamente a URL original do áudio após a transcrição ser obtida.

  2. Não utilize a URL para interpretar a intenção do cliente.

  3. Analise a intenção do cliente utilizando exclusivamente o conteúdo presente em texto_transcrito.

  4. Utilize normalmente:

  • Casos de uso

  • Procedimentos

  • Fontes de conhecimento

  • Instruções

  • Regras de negócio

  • Fluxos existentes

  1. Encaminhe o cliente para o caso de uso mais apropriado de acordo com a intenção identificada na transcrição.

Exemplos:

Se texto_transcrito indicar solicitação de dados de bobinagem de motor, encaminhe para o caso de uso correspondente de Dados de Bobinagem do Motor.

Se texto_transcrito indicar solicitação de assistência técnica, encaminhe para o caso de uso correspondente de Assistência Técnica.

Se texto_transcrito indicar consulta de garantia, encaminhe para o caso de uso correspondente de Garantia.

Se texto_transcrito indicar dúvidas comerciais, encaminhe para o caso de uso correspondente Comercial.

  1. Após identificar a intenção correta, continue o atendimento normalmente utilizando os fluxos já existentes na plataforma.

  2. Formule a resposta final para o cliente utilizando o entendimento obtido a partir de texto_transcrito, exatamente como faria se o cliente tivesse digitado aquela mensagem.

Tratamento de falhas:

Se a ação Audio Transcript [Production] não retornar uma transcrição válida, retornar conteúdo vazio, erro ou texto incompreensível:

  • Não tente interpretar a URL.

  • Não invente o conteúdo do áudio.

  • Solicite educadamente que o cliente envie novamente o áudio ou envie sua solicitação em texto.

Importante:

A URL do áudio nunca representa a solicitação do cliente.

A solicitação do cliente está exclusivamente no conteúdo retornado em texto_transcrito.

Após a obtenção da transcrição, toda a interpretação da conversa, identificação de intenção, roteamento e resposta devem ser baseados exclusivamente em texto_transcrito.