Stability AI ha appena lanciato Stability Audio 3.0, e non si tratta del solito aggiornamento incrementale che ci si potrebbe aspettare. Stavolta parliamo di un’intera famiglia di modelli pensati per lavorare sul suono in modo radicalmente diverso rispetto a quanto visto finora. Quattro modelli, tutti raccolti sotto lo stesso nome, ma con caratteristiche e ambizioni molto differenti tra loro.
Partiamo dalla struttura. Due modelli più contenuti, da 459 milioni di parametri, poi uno medio da 1,4 miliardi e infine il più potente, che arriva a 2,7 miliardi di parametri. Per rendere tutto più comprensibile, Stability AI ha pensato di dividerli anche per utilizzo pratico, quasi come se ciascuno avesse un compito specifico. I due modelli più leggeri sono pensati soprattutto per la generazione audio rapida, e possono funzionare anche in locale, producendo contenuti della durata di circa due minuti o poco più. Roba snella, veloce, pensata per chi ha bisogno di risultati immediati.
Chi invece cerca qualcosa di più ambizioso può guardare ai modelli medio e grande di Stability Audio 3.0, che puntano a restituire brani completi e strutturati, capaci di superare anche i sei minuti di durata. Il concetto chiave qui è quello della continuità musicale: la capacità di mantenere coerenza nel tempo, nella melodia e nelle sonorità lungo tutto il pezzo. Niente più sensazione di “pezzi incollati”, insomma, almeno nelle intenzioni.
Cosa cambia rispetto alla versione precedente e come funziona la distribuzione
Se si pensa alla versione 2.0 del 2024, il salto promesso è davvero notevole. All’epoca la durata dei brani generati era molto più limitata, mentre adesso Stability AI riesce a superare tranquillamente il doppio, se non addirittura il triplo, di quei limiti. Il progresso non è solo quantitativo ma tocca anche la qualità complessiva dell’output.
Per quanto riguarda la distribuzione, Stability AI ha scelto una strada mista che vale la pena spiegare. Le versioni piccole e medie sono open weight, il che significa che chiunque può scaricarle, modificarle e sperimentare liberamente. Il modello grande, quello da 2,7 miliardi di parametri, resta invece accessibile solo tramite API e servizi a pagamento. Una scelta che bilancia apertura alla community e sostenibilità economica.
La concorrenza e il nodo del copyright
Stability AI non si muove certo in un campo vuoto. Realtà come Google ed ElevenLabs stanno lavorando su strumenti simili, e poi c’è Suno, che al momento rappresenta probabilmente il nome più forte da battere nella generazione musicale tramite intelligenza artificiale. Il panorama è affollato e la competizione si fa sempre più serrata.
Parallelamente, le questioni legate a musica e copyright restano centrali. Diversi casi legali sono già aperti e il tema è tutt’altro che risolto a livello globale. Su questo fronte, la società dichiara di possedere tutte le licenze necessarie, anche grazie ad accordi stretti con grandi etichette come Warner e Universal. Per rafforzare ulteriormente la propria credibilità nel settore professionale, Stability AI ha coinvolto Ethan Kaplan, figura con una lunga esperienza nel mondo audio. Una mossa che segnala la volontà di posizionarsi come alternativa credibile e strutturata, puntando a fare le cose nel modo giusto fin dall’inizio.
