Ho perso mio padre, ecco come ho clonato la sua voce

All’inizio di aprile 2024 chi scrive quest’articolo è stato investito da un terribile lutto. La perdita di un genitore è uno dei passaggi della vita più sconvolgenti, un evento difficile – se non impossibile – da accettare e interiorizzare. Gli eventi pesano come un macigno e il pensiero corre spesso a chi non c’è più. Per molte persone, ascoltare la voce di una persona cara defunta può offrire conforto e un modo per mantenere un legame emotivo. Così, sono nate tante app che permettono di clonare la voce di chi non c’è più, partendo da un video o da una registrazione vocale della quale si è in possesso.

Chi scrive non è uno psicologo né un esperto di temi etici, sociologici e culturali. È però un tecnico, che sta vivendo un momento difficile. Così, nel desiderio di risentire ancora una volta la voce del papà babbo, ha voluto imboccare la strada più breve per raggiungere l’obiettivo.

Come l’intelligenza artificiale aiuta a clonare la voce di chi non c’è più

Utilizzare la voce di una persona deceduta potrebbe essere visto come una mancanza di rispetto, specialmente se non c’è stato consenso esplicito da parte della persona quando era in vita. Nel caso di specie, chi ha lasciato questo mondo era una persona che univa il bagaglio delle conoscenze di una vita con l’incessante e inesauribile voglia di imparare e di apprendere. Anche in campo tecnologico, nonostante l’età avanzata. Meravigliato dalle potenzialità dei motori di sintesi vocale, il caro estinto aveva quindi espresso un consenso consapevole e informato per l’utilizzo della sua voce.

Sulla piazza esistono diverse app che possono aiutare le persone a sentirsi più vicine ai loro cari scomparsi, alleviando il dolore del lutto. La clonazione della voce è uno strumento potente che, però, non dovrebbe essere abusato per fini commerciali.

Così, il sottoscritto ha pensato di utilizzare lo strumento Instant Voice Cloning di Eleven Labs per perseguire l’obiettivo e per finalità ovviamente del tutto personali.

Eleven Labs è un’azienda che si occupa di tecnologie di sintesi vocale basate sull’intelligenza artificiale. Il loro prodotto principale consente di generare voci artificiali realistiche e di clonare voci umane.

Il sistema messo a punto da Eleven Labs permette di replicare una voce umana utilizzando un campione audio della lunghezza minima di 60 secondi. Le tecniche avanzate di deep learning sviluppate da Eleven Labs prendono le mosse da dataset di registrazioni vocali e dalla rappresentazione vettoriale delle caratteristiche della voce, come timbro, intonazione e ritmo.

Preparazione del campione audio

Ben conoscendo le potenzialità di Eleven Labs, come primo passo si è quindi provveduto ad aprire con Audacity in versione portabile un video MP4 contenente (anche) la voce del caro estinto. Poiché di default Audacity non supporta il formato MP4, è bastato installare FFmpeg for Audacity.

Aprendo il video MP4, con il noto software di elaborazione audio, si sono rimossi con cura i rumori di fondo e il parlato riconducibile ad altri interlocutori.

Alla fine del lavoro, è bastato fare clic su File, Export, Export as MP3 per ottenere un file audio in formato MP3, con il campione vocale d’interesse.

ho perso mio padre, ecco come ho clonato la sua voce

Come creare un modello vocale su Eleven Labs

Possedendo un abbonamento Starter di Eleven Labs, si è fatto clic su Voices, Add generative or cloned voices, Instant Voice Cloning nell’interfaccia Web.

ho perso mio padre, ecco come ho clonato la sua voce

L’applicazione Web di Eleven Labs chiede a questo punto di assegnare un nome al modello vocale in procinto di creazione quindi di caricare lo spezzone audio di almeno un minuto. Si è quindi provveduto all’upload del file MP3 esportato in precedenza tramite l’interfaccia di Audacity.

Per procedere e avere la possibilità di cliccare sul pulsante Add voice è indispensabile dichiarare di impegnarsi a rispettare scrupolosamente i termini di utilizzo del servizio nonché di utilizzare il modello vocale solo ed esclusivamente per scopi leciti e ammessi dalle normative vigenti.

ho perso mio padre, ecco come ho clonato la sua voce

Il risultato proposto da Eleven Labs lascia di stucco

Semplicemente cliccando su Use, si può utilizzare il modello vocale generato dall’intelligenza artificiale di Eleven Labs per pronunciare qualunque testo, anche complesso e articolato.

ho perso mio padre, ecco come ho clonato la sua voce

Basta fare riferimento alla scheda Text-to-Speech (TTS), scrivere o incollare il testo nell’apposito riquadro quindi cliccare sul pulsante Generate speech. A questo proposito, va detto che ogni operazione di sintesi vocale con la generazione di audio riproducibile, va a consumare un certo quantitativo di token, disponibili ed elaborabili su base mensile. Eleven Labs indica, come “valore spannometrico”, la possibilità di elaborare intorno ai 30.000 caratteri al mese, equivalenti a 30 minuti di audio (piano Starter).

ho perso mio padre, ecco come ho clonato la sua voce

La qualità del risultato offerto dal modello vocale creato utilizzando Eleven Labs dipende fortemente dalla “bontà” del campione audio fornito in input. Ad ogni modo, pur non disponendo di registrazioni sonore piuttosto lunghe e a dispetto della presenza di qualche imperfezione, il risultato di solito impressiona positivamente.

Agendo sulle opzioni Stability, Similarity e Style Exaggeration, è possibile migliorare il comportamento del modello. Il parametro Stability controlla quanto la voce generata rimane coerente e stabile nel tempo. Un valore più alto produce una voce più costante e prevedibile; un valore più basso può introdurre più variazioni, rendendo la voce più naturale ma meno consistente.

L’impostazione Similarity determina quanto la voce generata è simile all’originale: valori più alti producono una voce più fedele all’originale; valori più bassi possono introdurre più variazioni o caratteristiche uniche. Infine, Style Exaggeration amplifica le caratteristiche stilistiche uniche della voce: un valore più alto enfatizza gli aspetti distintivi della voce, come l’accento o le inflessioni.

Il passo successivo: utilizzo delle API di Eleven Labs

Tutti i file audio generati ricorrendo al modello vocale di Eleven Labs possono essere scaricati in formato WAV o MP3. Il passaggio successivo, però, può essere l’utilizzo delle API (Application Programming Interface) fornite dalla piattaforma e il collegamento con un Large Language Model (LLM).

Le API di Eleven Labs consentono di inviare richieste e ricevere risposte in formato JSON. Si può ad esempio chiedere al modello generativo di Eleven Labs di generare un file audio riproducibile inviando la risposta ottenuta da un LLM, come conseguenza di uno specifico prompt.

Allo scopo si può utilizzare Voiceflow che permette di creare un assistente vocale interfacciandosi con le API di Eleven Labs.

Ogni voce creata o condivisa sulla piattaforma Eleven Labs è infatti contraddistinta con un identificativo univoco: cliccando su “ID” in corrispondenza del riquadro contenente il riferimento alla voce clonata, è possibile copiarlo automaticamente nell’area degli appunti. Semplicemente premendo CTRL+V, è possibile utilizzare tale riferimento nel codice che attiva il motore TTS di Eleven Labs da qualunque applicazione.

Questa guida ufficiale contiene diversi spunti di possibili utilizzi nei vari linguaggi di programmazione o dalla finestra del terminale (con cURL). Voiceflow propone questo esempio di integrazione con le API di Eleven Labs.

In conclusione, è bene sottolineare più volte che ciò che aiuta lo scrivente può non essere di ausilio per altri. Bisogna essere consapevoli che l’uso di una voce clonata può interferire con il processo di elaborazione del lutto o, addirittura, creare confusione emotiva. Quanto illustrato in questo articolo non vuole, non può e non deve costituire esortazione a comportarsi in maniera analoga.

Leggi l'articolo originale >> Ho perso mio padre, ecco come ho clonato la sua voce

OTHER NEWS

1 hour ago

Inter, Marotta bussa all’Arabia Saudita: incontro con un intermediario per…

1 hour ago

Bankitalia, 'le imprese vedono un 2024 in rallentamento'

1 hour ago

Verstappen ascolta il verdetto dei commissari sportivi dopo essere arrivato in ritardo alla conferenza stampa

1 hour ago

Lago di Occhito, in 9 giorni -10 milioni di metri cubi d'acqua

1 hour ago

Milan, colpo shock: quasi fatta per il centrocampista

1 hour ago

Bagnaia si prende le prequalifiche con record, Martin ancora dietro

1 hour ago

La Rai non si fa scappare Affari Tuoi: è arrivata la decisione in queste ore

1 hour ago

West Nile, il primo caso autoctono in Italia fu a Modena

1 hour ago

Nuova KIA Picanto: evoluzione ma non rivoluzione

1 hour ago

MotoGP | Vinales: “Austin shock, voglio ripetermi: così ho scelto KTM”

2 hrs ago

Ljuba Rizzoli musa della nuova couture di Antonio Grimaldi

2 hrs ago

Stroll vuole Newey alla Aston Martin: "È un fuoriclasse".

2 hrs ago

Giffoni, Il magico mondo di Harold in anteprima il 26 luglio

2 hrs ago

Dwayne Johnson e Chris Evans devono salvare Santa Clause nel film Uno Rosso [TRAILER]

2 hrs ago

F1 | Novità McLaren: ala anteriore e cover della sospensione

2 hrs ago

Verstappen e Perez creano la loro squadra di calcio di soli piloti di F1

2 hrs ago

A Quiet Place - Giorno 1, recensione: perché vivere in un mondo in rovina?

2 hrs ago

Elezioni in Francia 2024, clamoroso: Le Pen ad un passo dalla maggioranza assoluta

2 hrs ago

3 Soulslike da tenere d'occhio per la fine del 2024: Enotria è in buona compagnia

2 hrs ago

Milan ufficiale: preso dal Real Madrid, tutti i dettagli

2 hrs ago

Lago di Garda, centinaia di persone con gastroenterite per il Norovirus: le cause

2 hrs ago

Caso Denise, imputazione coatta per i giornalisti Milo Infante e Angelo Maria Perrino

2 hrs ago

Tornano in Molise caldo e pulviscolo sahariano

2 hrs ago

Tuttosport - Dragusin ha svelato all'agente il desiderio di un trasferimento a Napoli! Si attende l'incontro con l'allenatore del Tottenham

2 hrs ago

Manager licenziata dopo la diffusione di un video online

2 hrs ago

I profili seguiti da Giuntoli per rinforzare le corsie difensive della Juve

2 hrs ago

Le stagioni 3 e 4 di The Bear non sono state girate back-to-back, dopotutto

2 hrs ago

Marino (Unindustria): "Esami in farmacia? Ripercussioni su efficienza e salute cittadini"

2 hrs ago

Mestre, all'Ospedale dell'Angelo eseguito per la prima volta l'intervento di Whipple con robot da Vinci: «Operazione tra le più complesse»

2 hrs ago

Novak Djokovic può sorridere: ecco il suo cammino a Wimbledon

2 hrs ago

La prima auto elettrica "made in Hong Kong" sarà così

2 hrs ago

Warren Buffett lascerà i suoi miliardi a un nuovo ente di beneficenza

2 hrs ago

Sigourney Weaver, Leone d'oro alla carriera alla Biennale di Venezia. Barbera: «Attrice con pochi rivali»

2 hrs ago

Leclerc amaro: "Si è spento tutto... Sono deluso"

2 hrs ago

Fascicolo sanitario elettronico, conto alla rovescia per opporsi al pregresso: ecco come fare

2 hrs ago

Le frenate del calzaturiero. Crisi della scarpa in pelle

2 hrs ago

Fabrizio Corona annuncia il nome del figlio in arrivo, la fidanzata Sara non la prende bene: «Idiota»

2 hrs ago

Ue applica nuove sanzioni ad Hamas e Jihad Palestinese

2 hrs ago

Le bugie dei bambini: mentire per paura di essere sgridati

2 hrs ago

Bagnaia: "Lavoro dà i suoi frutti, pista fantastica"