Ultimamente mi trovo a dover lavorare con dataset che hanno molti valori mancanti, e sto cercando di capire come gestirli senza introdurre troppi bias. Ho provato semplicemente a rimuovere le righe, ma poi perdo un sacco di dati, e imputare con la media mi sembra sempre una scelta un po' forzata. Mi chiedo se esista un approccio più strutturato per valutare l'impatto reale della mia scelta di imputazione sui modelli successivi. Qualcuno si è mai trovato a dover validare in modo rigoroso una strategia di data imputation?

