🎬 Apriamo la puntata di questa settimana parlando della recente chiusura di Sora da parte di Open AI. Modelli di questo tipo richiedono costi elevati ed evidentemente nemmeno Open AI può più permettersi di perdere soldi.⚡ Il cuore della puntata è dedicato a TurboQuant, una tecnica che promette una quantizzazione più efficace, da utilizzare anche per la KV Cache . Tra vettori, quantizzazione e compromessi tra compressione e qualità, vediamo come sia possibile ridurre drasticamente la memoria utilizzata mantenendo prestazioni elevate, avvicinandosi persino ai limiti teorici della compressione. 🏗️ Chiudiamo con uno sguardo all’infrastruttura che rende tutto questo possibile: i nuovi rack NVIDIA pongono sfide enormi in termini di energia e raffreddamento. Tra data center sempre più energivori e strategie tra nucleari e rinnovabili, il futuro dell’AI passa anche (e soprattutto) da qui.