Come valutare l'imputazione dei dati per evitare bias nei modelli?
#1
Ultimamente mi trovo a dover lavorare con dataset che hanno molti valori mancanti, e sto cercando di capire come gestirli senza introdurre troppi bias. Ho provato semplicemente a rimuovere le righe, ma poi perdo un sacco di dati, e imputare con la media mi sembra sempre una scelta un po' forzata. Mi chiedo se esista un approccio più strutturato per valutare l'impatto reale della mia scelta di imputazione sui modelli successivi. Qualcuno si è mai trovato a dover validare in modo rigoroso una strategia di data imputation?
Cita messaggio


Risposta rapida
Messaggio
Scrivi qui il tuo messaggio.

Verifica Immagine
Per favore inserisci il testo contenuto nell'immagine nella casella di testo sotto ad essa. Questa operazione è necessaria per prevenire gli spam bot automatici.
Verifica Immagine
(maiuscole indifferenti)

Vai al forum: