Ferramentas e gambiarras para transcrição de áudio

Ferramentas e gambiarras para transcrição de áudio

Testamos opções pagas e gratuitas para você escolher a que melhor se encaixa na sua rotina

A transcrição de áudio é uma das etapas mais invisíveis da produção de um podcast narrativo. Quem escuta um episódio ou uma série documental nem imagina a montanha de páginas que se esconde por trás de cada pedaço editado de entrevista.

O Praia dos Ossos, por exemplo, foi construído com base em mais de 50 entrevistas. Chutando baixo que cada uma pode ter durado de uma a duas horas, você já pensa na trabalheira que deu para transformar tudo isso em texto. Nos créditos do programa, há sete pessoas responsáveis pelas transcrições – tem mais gente nessa função do que nos setores de música e design juntos.

Não tem saída: para fazer um bom roteiro, é preciso ter em mãos um bom catálogo do material coletado. Mas grande parte das produtoras ou podcasts independentes não tem condição de ter na equipe alguém especializado nessa tarefa ou de contratar o serviço sempre que necessário. Custa caro e com razão.

Na série Epidemia, do 37 Graus, que produzo ao lado da Sarah Azoubel, gravamos 24 entrevistas (sem contar depoimentos e participações mais curtas). Contratamos um colega para fazer a transcrição apenas dos principais materiais, o que nos ajudou a navegar pela história e a escolher os melhores momentos.

Até o momento, não há nenhum programa no mercado que se compare ao trabalho de um humano. Tem diálogos e palavras enroladas que as pobres máquinas ainda não são capazes de decifrar. Mas algumas ferramentas nos ajudam a poupar tempo e a organizar o trabalho – além de preservar as articulações das mãos. Escolhi algumas para testar.

Obs.: com exceção do oTranscribe, todas as ferramentas abaixo exigem que o áudio tenha certa qualidade. Se a voz aparece límpida e foi gravada em ambiente com pouco ruído, em geral, a taxa de acerto será maior.

Obs. 2: estou falando da transcrição de entrevistas na íntegra porque o volume de material costuma ser maior, mas as soluções listadas aqui também ajudam na transcrição de episódios já prontos, para garantir uma dose extra de acessibilidade na hora da publicação.

oTranscribe

oTranscribe não é uma ferramenta de transcrição em si, e sim um ajudante. Ele permite que você escute o seu arquivo de áudio enquanto faz anotações em um documento de texto. Com simples atalhos de teclado, você pausa a entrevista, avança, volta e adiciona marcações de tempo (timestamps). Também é possível aumentar ou reduzir a velocidade do áudio para sincronizá-lo com a sua velocidade de escrita.

Tela do oTranscribe

É grátis e simples de usar. Basta abrir o site e fazer o upload de um arquivo de áudio do seu computador. Ao fim da transcrição, você pode baixar o documento de texto ou salvá-lo direto no seu Google Drive.

Transcriber Bot do Telegram

[Atenção: foi só a gente fazer esse post que o bot do Telegram começou a falhar e deixar todo mundo na mão. Mas, de todo modo, fica aqui a avaliação.]

Já virou um movimento automático: quando recebo uma mensagem de áudio com mais de dois minutos de duração, em um clique a encaminho para o Transcriber Bot do Telegram. Especialmente se for assunto de trabalho, sem nem uma pitadinha de fofoca. Em segundos o bot me devolve a mensagem transcrita, como mágica. Uma mágica por vezes desengonçada, é verdade, mas que costuma ser suficiente para você entender a questão e respondê-la de acordo.

Teste 1: áudio gravado no celular com a finalidade de testar as ferramentas de transcrição.
Print do telegram com a mensagem: Texto:
 Oi eu estou gravando esse áudio pra usar nos testes de aplicativos de transcrição pro cochicho. Tem um pouquinho de ruído. Eu vou falar um pouquinho mais rápido agora pra ver se ele vai pegar. Agora eu falo um pouquinho mais devagar pra ver se faz muita diferença. E é isso.
Resposta do Transcriber Bot do Telegram referente ao áudio acima.

Na rotina da produção de podcasts, essa ferramenta pode ser uma mão na roda, principalmente quando tudo o que você precisa é indexar o conteúdo de um áudio curto, na voz de uma pessoa só. A taxa de acerto é relativamente alta e ele pontua as frases até que bem.

Por outro lado, essa pode não ser a melhor opção para transcrever longas entrevistas e conversas com múltiplos participantes, como mostra o teste abaixo.

Teste 2: pedacinho da entrevista com o jornalista Chico Felitti publicada aqui no Cochicho.
Print do Telegram com a mensagem: Texto:
 Então eu queria que você falasse um pouco de como é que você acha essas histórias o que que o que que você quais elementos você procura assim numa super ah acho que é meio minha vida assim o que eu faço é qualquer trabalho que eu faço é pra dar vazão pras histórias que eu já tenho assim porque desde criança eu tenho muita curiosidade, muita vontade, eu sou muito ligado assim, acho que eu sou muito ligado em tudo que tá acontecendo ao redor, então eu vou catando história por onde quer que eu passe. Assim, então
Resposta do Transcriber Bot do Telegram referente ao áudio acima.

Para começar um relacionamento com esse robôzinho, digite “Transcriber Bot” no campo de busca do Telegram e encaminhe mensagens a ele como se fosse um contato comum.

Google Pinpoint

Pinpoint é uma ferramenta gratuita do Google pensada para jornalistas. Ela permite que você faça uma boa varredura pelos seus documentos, organizados em coleções. Ao receber um arquivo de áudio, o Pinpoint gera um PDF com a transcrição, que também pode ser baixada em formato txt.

Transcrição que o Pinpoint fez do teste 1, minha gravação de celular que você ouviu acima.
Transcrição que o Pinpoint fez do teste 2, pedaço de entrevista com Chico Felitti que você ouviu acima.

O Pinpoint quebra um bom galho e tem mais funções do que o Transcriber Bot, além de ser mais prático para visualizar e trabalhar. Ele separa a transcrição em parágrafos e permite dar play em cada uma dessas divisões. Também fica fácil de buscar palavras e compartilhar o link do documento com o restante da equipe. Mas, assim como no bot do Telegram, não há funcionalidades de edição do material e nem a opção de subir entrevistas/conversas com múltiplos participantes em faixas separadas.

Sonix e Trint

O Sonix e o Trint são serviços de transcrição por assinatura que trabalham com a língua portuguesa. Você faz o upload de um arquivo de áudio, aguarda alguns minutos (depende do tamanho do arquivo) e ganha acesso à uma página com a transcrição completa. Alguns planos do Sonix oferecem a função multi-track, para transcrever uma entrevista ou conversa com dois ou mais participantes.

O diferencial desses programas é que o som e o texto ficam casados. Por exemplo, você pode posicionar o cursor e dar play naquela exata palavra, ou pode selecionar uma frase e escutar somente ela. Também dá para adicionar comentários, grifar trechos, eliminar pedaços da entrevista (do texto e do áudio) e baixar só as partes desejadas da gravação. No caso do Sonix, é possível exportar a entrevista com as marcações direto para o Adobe Audition, o que pode ser útil para quem edita o podcast nesse software.

Ambos possuem planos para múltiplos usuários e permitem uma boa organização por pastas, facilitando o trabalho em equipe.

Hora de apontar os problemas. No geral, sinto que a qualidade da transcrição do Sonix e do Trint (eles são bem semelhantes nesse sentido) é um pouco inferior à do Transcriber Bot do Telegram e do Pinpoint. Nos testes abaixo isso não ficou tão evidente, mas é algo que percebi em outras ocasiões.

Transcrição que o Sonix fez do teste 1, minha gravação de celular que você ouviu lá em cima.
Transcrição que o Sonix fez do teste 2, pedaço de entrevista com Chico Felitti que você ouviu lá em acima.

Ambos os programas não costumam mandar bem em acentuação e pontuação, além de cometerem vários erros engraçados (“termodinâmica” já virou “Turma da Mônica” e “peixe-elétrico” já virou “Pixuleco”).

Outro problema: não são serviços baratos, ainda mais nos últimos tempos, com o dólar lá em cima. O plano básico do Sonix custa US$ 10 por hora de áudio, já a modalidade Premium está US$ 22/mês + US$ 5 por hora de áudio. Tem um desconto de 25% no plano anual. A mensalidade mais barata do Trint está US$ 60 e permite até sete arquivos por mês. No plano Advanced, as transcrições são ilimitadas e você paga US$ 75. Tem desconto de 20% nos planos anuais.

Os dois programas oferecem teste grátis. No 37 Graus, usamos o Sonix e ele já se tornou parte da nossa rotina, mas recomendo experimentar antes de mergulhar de cabeça.

Escriba

Voltamos aqui neste post para adicionar o Escriba, uma ferramenta de transcrição do Aos Fatos. Por ser brasileira, os valores são bem mais camaradas que as opções gringas citadas: a partir de R$ 5/hora nos planos mensais.

Nós testamos (você também pode testar gratuitamente por 7 dias) e gostamos muito. A qualidade da transcrição é acima da média e a plataforma é bem fácil de usar.

Dá para grifar, editar e exportar o texto, mas ainda não há a possibilidade de mexer diretamente no arquivo de áudio e nem de fazer o upload em tracks separadas (a faixa do entrevistado e do entrevistador, por exemplo).

Outros

Não são os caminhos mais práticos, mas sei que alguns colegas usam ferramentas de ditado (digitação por voz) para fazer transcrições. Algumas das opções são Dictation, Google Docs e Microsoft Word. Outro quebra-galho é subir o arquivo como vídeo no YouTube e baixar a legenda, ou mesmo usar a função de legendagem de um editor de vídeo, como a Speech to Text, do Adobe Premiere Pro.

As respostas ao tweet acima trazem algumas avaliações e dicas dos nossos seguidores.

A dica final que deixo é para quem costuma gravar cenas em campo. Às vezes não precisamos de uma transcrição completa do que está sendo falado, e sim de um índice geral que nos guie pelos principais momentos. Nesses casos, podemos recorrer aos marcadores do próprio editor de áudio (uso o Adobe Audition), como no print abaixo.

Arquivo com trechos marcados e nomeados no Adobe Audition.

Eu não sabia dessa função até poucos meses atrás (a Sarah Azoubel que me ensinou), mas, uma vez que os trechinhos estão devidamente catalogados, é possível usar a barra de marcadores como uma “sala de espera” de arquivos. Por exemplo, enquanto monto o episódio, vou puxando da lateral os trechos que desejo.

Obs.: não esqueça de ativar a função “Mostrar marcadores de todos os arquivos”, aquele quadradinho no canto superior direito.

Exemplo de como os marcadores podem ajudar na montagem do episódio.