Login

Ciao a tutti, mi trovo in una situazione un po’ strana sul lavoro e non so bene come muovermi. Lavoro come analista in un’azienda di retail e ultimamente mi è stato chiesto di preparare un modello predittivo per le scorte, concentrandomi soprattutto sulla domanda dei prodotti stagionali. Il problema è che il mio team ha due fonti di dati storici molto diverse tra loro, una molto pulita ma limitata agli ultimi due anni, e l’altra che va indietro di cinque anni ma è piena di bizzarri outlier e periodi di dati mancanti. Mi chiedo se abbia più senso lavorare solo con i dati recenti e solidi, o se provare a pulire e usare tutto il dataset più lungo possa davvero fare la differenza per la bontà delle previsioni. Ho paura di perdere un sacco di tempo in data cleaning per un guadagno marginale, ma anche di costruire un modello su una base troppo ristretta. Qualcuno si è trovato a dover prendere una decisione simile sul trade-off tra quantità e qualità dei dati per la modellazione predittiva?

Capisco l’incertezza tra dati puliti ma limitati e dati lunghi ma pieni di outlier. I dati contano ma una pulizia troppo pesante rischia di eliminare segnali utili e di farti perdere tempo. Hai valutato quanto pesi la varianza dei dati vecchi nel modello finale?

Una strategia pratica è costruire due pipeline sui dati disponibili e confrontarle con validazione temporale. Una usa solo dati recenti puliti mentre l'altra integra il lungo storico con clipping degli outlier e imputazione ragionata. Poi si valutano metriche rilevanti come errore nelle previsioni di picco stagionale.

Non sono convinto che i dati vecchi pieni di buchi possano davvero aiutare perché potrebbero introdurre bias e rumore. Forse è meglio testare entrambe le opzioni e misurare la differenza?

Se vuoi cambiare prospettiva non chiederti quanto sia meglio tra quantità e qualità ma quale metrica definisce vero successo per le scorte e come i dati influenzano quella metrica. quale metrica useresti per valutare?

Questo tema tocca la tolleranza al rischio e la robustezza del modello prova a considerare approcci non banali come forecast probabilistici o modelli robusti che non si aspettano dati perfetti.

Qualunque sia la scelta fai una piccola sperimentazione e definisci una soglia di valore atteso per il gain del data cleaning contro il costo in tempo e sforzo sui dati. quale sperimentazione breve ti sembra ragionevole?

Login
Nome utente:
Password:	Password dimenticata?
	Ricordami