Time Plus News

Breaking News, Latest News, World News, Headlines and Videos

As músicas geradas por IA estão ficando mais longas, não necessariamente melhores

Stable Audio 2.0, um modelo de geração de áudio para Stability AI, agora permite que os usuários carreguem suas próprias amostras de áudio que podem ser transformadas usando prompts e criar músicas geradas por IA. Mas as músicas ainda não ganharão nenhum Grammy.

O primeira versão do Áudio Estável foi lançado em setembro de 2023 e oferecia apenas até 90 segundos para alguns usuários pagantes, o que significava que eles só podiam fazer pequenos clipes de som para experimentar. Stable Audio 2.0 oferece um clipe de som completo de três minutos – a duração da maioria das músicas para rádio. Todo o áudio enviado deve ser livre de direitos autorais.

Ao contrário do OpenAI modelo de geração de áudio, Voice Engineque está disponível apenas para um grupo seleto de usuários, a Stability AI tornou o Stable Audio gratuito e disponível publicamente por meio de seu site e, em breve, de sua API.

Uma grande diferença entre o Stable Audio 2.0 e sua iteração anterior é a capacidade de criar músicas que soam como músicas, completas com uma introdução, progressão e um final, diz Stability AI.

A empresa me deixou brincar um pouco com o Stable Audio para ver como funciona, e digamos apenas que ainda há um longo caminho a percorrer antes que eu possa canalizar minha Beyoncé interior. Com o prompt “música folk pop com vibrações americanas” (eu quis dizer Americana, a propósito), Stable Audio gerou uma música que, em algumas partes, parece pertencer à minha lista de reprodução Mountain Vibes Listening Wednesday Morning Spotify. Mas também adicionou o que eu acho que são vocais? Outro Beira repórter afirma que parece som de baleia. Estou mais preocupado por ter invocado acidentalmente uma entidade para minha casa.

Eu teoricamente poderia ajustar o áudio para torná-lo mais meu estilo de audição, já que os novos recursos do Stable Audio 2.0 permitem que os usuários personalizem seu projeto ajustando a intensidade do prompt (também conhecido como quanto o prompt deve ser seguido) e quanto de qualquer áudio carregado ele modificará . Os usuários também podem adicionar efeitos sonoros, como o rugido de uma multidão ou toques no teclado.

Deixando de lado os estranhos ruídos das baleias gregorianas, não é uma surpresa que as músicas geradas por IA ainda pareçam estranhas e sem alma. Meu colega Wes Davis ruminei sobre isso depois de ouvir uma música gerado pela Suno. Outras empresas, como Meta e Google, também têm se envolvido na geração de áudio por IA, mas não divulgaram seus modelos publicamente, pois coletam feedback dos desenvolvedores para responder ao problema do som sem alma.

A Stability AI disse em um comunicado à imprensa que o Stable Audio é treinado com dados do AudioSparx, que possui uma biblioteca de mais de 800.000 arquivos de áudio. A Stability AI afirma que os artistas do AudioSparx foram autorizados a optar por não receber seu material para treinar o modelo. O treinamento em áudio protegido por direitos autorais foi uma das razões pelas quais o ex-vice-presidente de áudio da Stability AI, Ed Newton-Rex, deixou a empresa logo após o lançamento do Stable Audio. Para esta versão, a Stability AI afirma que fez parceria com a Audible Magic para usar sua tecnologia de reconhecimento de conteúdo para rastrear e bloquear a entrada de material protegido por direitos autorais na plataforma.

Stable Audio 2.0 é melhor que sua versão anterior em fazer músicas soarem como músicas, mas ainda não chegou lá. Se a modelo insistir em adicionar algum tipo de vocal, talvez a próxima versão tenha uma linguagem mais discernível.

Source link