Come decidere tra dati recenti puliti e dati lunghi con outlier per previsione?
#1
Ciao a tutti, mi trovo in una situazione un po’ strana sul lavoro e non so bene come muovermi. Lavoro come analista in un’azienda di retail e ultimamente mi è stato chiesto di preparare un modello predittivo per le scorte, concentrandomi soprattutto sulla domanda dei prodotti stagionali. Il problema è che il mio team ha due fonti di dati storici molto diverse tra loro, una molto pulita ma limitata agli ultimi due anni, e l’altra che va indietro di cinque anni ma è piena di bizzarri outlier e periodi di dati mancanti. Mi chiedo se abbia più senso lavorare solo con i dati recenti e solidi, o se provare a pulire e usare tutto il dataset più lungo possa davvero fare la differenza per la bontà delle previsioni. Ho paura di perdere un sacco di tempo in data cleaning per un guadagno marginale, ma anche di costruire un modello su una base troppo ristretta. Qualcuno si è trovato a dover prendere una decisione simile sul trade-off tra quantità e qualità dei dati per la modellazione predittiva?
Cita messaggio
#2
Capisco l’incertezza tra dati puliti ma limitati e dati lunghi ma pieni di outlier. I dati contano ma una pulizia troppo pesante rischia di eliminare segnali utili e di farti perdere tempo. Hai valutato quanto pesi la varianza dei dati vecchi nel modello finale?
Cita messaggio
#3
Una strategia pratica è costruire due pipeline sui dati disponibili e confrontarle con validazione temporale. Una usa solo dati recenti puliti mentre l'altra integra il lungo storico con clipping degli outlier e imputazione ragionata. Poi si valutano metriche rilevanti come errore nelle previsioni di picco stagionale.
Cita messaggio
#4
Non sono convinto che i dati vecchi pieni di buchi possano davvero aiutare perché potrebbero introdurre bias e rumore. Forse è meglio testare entrambe le opzioni e misurare la differenza?
Cita messaggio
#5
Se vuoi cambiare prospettiva non chiederti quanto sia meglio tra quantità e qualità ma quale metrica definisce vero successo per le scorte e come i dati influenzano quella metrica. quale metrica useresti per valutare?
Cita messaggio
#6
Questo tema tocca la tolleranza al rischio e la robustezza del modello prova a considerare approcci non banali come forecast probabilistici o modelli robusti che non si aspettano dati perfetti.
Cita messaggio
#7
Qualunque sia la scelta fai una piccola sperimentazione e definisci una soglia di valore atteso per il gain del data cleaning contro il costo in tempo e sforzo sui dati. quale sperimentazione breve ti sembra ragionevole?
Cita messaggio


Risposta rapida
Messaggio
Scrivi qui il tuo messaggio.

Verifica Immagine
Per favore inserisci il testo contenuto nell'immagine nella casella di testo sotto ad essa. Questa operazione è necessaria per prevenire gli spam bot automatici.
Verifica Immagine
(maiuscole indifferenti)

Vai al forum: