20/11/2025
Oggi la maggior parte delle piattaforme voice AI usa il classico modello a cascata: ASR (riconoscimento vocale) → LLM → TTS (sintesi vocale)
Una pipeline collaudata, che funziona, ma che inizia a mostrare limiti quando entriamo nel mondo del real-time e delle conversazioni complesse
Non è l’ASR a causare i veri problemi di latenza, ma il modello LLM e la necessità di gestire stack infrastrutturali sempre più performanti
Sono rimasto colpito da alcuni nuovi approcci speech-to-speech, dove la voce non viene più trasformata in testo, ma rimane sempre audio
È qui che la Voice AI mostra il potenziale per sbloccare interazioni più fluide e “umane”, capaci di gestire bene disturbi, rumori, e la naturalezza delle conversazioni reali
Anche i migliori agenti di oggi, con tutto il progresso fatto, non sono ancora “davvero bravi” –> segno che c’è ancora molto da innovare
Secondo diversi esperti Il futuro non sarà dominato solo dalle chiamate AI, ma da agenti vocali capaci di inserirsi in conversazioni di gruppo e processi decisionali aziendali in tempo reale
Questo significa disruptive tech nei software, negli OS e nelle nostre abitudini di collaborazione
Da consulente, trovo stimolante pensare ai prossimi anni:
come evolveranno le soluzioni voice nelle aziende italiane?
Quanto siamo pronti a ridisegnare workflow e infrastrutture per sfruttare al meglio la nuova frontiera dello speech-to-speech?
Se lo trovi interessante, confrontiamoci qui sotto!