Avaliações do editor: Avaliações do usuário:[Total: 0 Average: 0] @media(min-width: 500px) { } @media(min-width: 800px) { }
Bark é um modelo AI de conversor de texto para áudio gratuito e de código aberto que permite gerar fala, música e efeitos sonoros. Ele ainda suporta clonagem de voz que você pode tentar. No momento, você só pode experimentar a versão hospedada no Hugging Face e depois analisar sua saída. Se você achar útil, basta pegar o código-fonte e hospedá-lo onde quiser.
Bark é provavelmente o único modelo de IA disponível que pode gerar áudio a partir de texto. Até o Google anunciou um modelo de IA semelhante há algum tempo, mas ainda não foi lançado. Portanto, se você usa IA especialmente para geração de áudio, vai gostar do Bark. Ele oferece suporte a prompts contextualizados com contexto adicional e notas musicais para que saiba o que você deseja fazer. Você também pode fazer com que ele gere fala na voz de outra pessoa.
Você também pode aprender mais sobre Bark neste tópico do Twitter, se quiser.
AI permite que você crie imagens realistas vozes, música, sons.
Mas a maioria das ferramentas de IA de texto para áudio custa cerca de US$ 12/mês.
Aqui está uma ferramenta de IA gratuita para começar a criar vozes realistas apenas com texto: 👇
— Barsee 🐶 (@heyBarsee) 30 de abril de 2023
Texto livre para modelo de IA de áudio para gerar fala e música: Bark
Como já mencionei que é de código aberto, você pode pegar rapidamente código-fonte aqui ou simplesmente dê uma olhada nele. Por enquanto, ele tem suporte para 13 idiomas, mas o suporte para mais idiomas estará disponível em breve nas atualizações posteriores. Alguns dos idiomas suportados conhecidos neste modelo são:
Inglês (en) ✅ Alemão (de) ✅ Espanhol (es) ✅ Francês (fr) ✅ Hindi (hi) ✅ Italiano (it) ✅ Japonês (ja ) ✅ Coreano (ko) ✅ Polonês (pl) ✅ Português (pt) ✅ Russo (ru) ✅ Turco (tr) ✅ Chinês, simplificado (zh) ✅
Agora, aqui está o link para o modelo hospedado no Hugging Face que você pode experimentar. Pode ser lento na geração, mas funcionará. É uma espécie de prova de conceito, mas se você deseja executá-lo em todo o seu potencial, pode pegar o código-fonte e executá-lo após seguir as instruções de instalação (requer requisitos de hardware pesados). A interface Hugging Face se parece com isso.
Digite o prompt na caixa ou você também pode executar o exemplo de prompt já fornecido. Basta selecionar um alto-falante da lista e seguir em frente. Clique em gerar e, em seguida, produzirá a fala de saída em alguns segundos.
Da mesma forma, você pode gerar a música ou efeitos sonoros. Como a geração de fala também é o mesmo processo, você pode simplesmente distinguir entre geração de fala e geração de música adicionando notas. Veja o exemplo abaixo e como as notas musicais são inseridas nele.
♪ Na selva, a poderosa selva, o leão late esta noite ♪
Na entrada de texto normal, você pode insira algum símbolo para adicionar efeitos extras, como rir, limpar a garganta, etc. Aqui está a lista de alguns sons não verbais suportados que você pode optar por incluir no discurso final. Eles estão sendo atualizados diariamente e você também pode recomendar o seu no servidor Discord de Bark.
[risos] [risos] [suspiros] [música] [suspiros] [limpa a garganta] — ou … para hesitações
Um exemplo: Olá, meu nome é Suno. E, uh-e eu gosto de pizza. [risos]Mas também tenho outros interesses, como jogar jogo da velha.
Veja a colocação de componentes não verbais na geração de fala.
Desta forma, você pode fazer uso deste modelo gratuito e poderoso de geração de texto para áudio. Converta texto em fala, clone vozes, gere música e efeitos sonoros. O processo é fácil e a interface Hugging Face torna ainda mais fácil de usar. Além disso, você pode hospedá-lo em seu próprio servidor ou PC se tiver os requisitos de hardware corretos.
Palavras finais:
Se você estiver procurando por uma ferramenta gratuita de IA que pode gerar música, fala e efeitos sonoros a partir da descrição, o Bark é a ferramenta número um para fazer isso. Com isso, você pode gerar locuções para seus vídeos, podcasts e até mesmo audiolivros. Gostei do fato de ser multilíngue e oferecer várias opções de configuração para produzir uma saída perfeita.