Sto lavorando a un progetto di analisi predittiva per il mio corso di laurea magistrale e mi trovo di fronte a un bivio. Ho raccolto un dataset abbastanza ampio con diverse feature, alcune delle quali sono chiaramente correlate tra loro. Il mio relatore mi ha suggerito di considerare l'analisi delle componenti principali per ridurre la dimensionalità e semplificare il modello. Il mio dubbio però è pratico: ho paura che applicandola, perda la possibilità di interpretare in modo chiaro il contributo delle singole variabili originali nel risultato finale. Qualcuno che ci è già passato ha avuto la stessa sensazione? Come avete gestito il trade-off tra un modello più pulito e la necessità di spiegare cosa sta realmente influenzando le previsioni?
|
Cosa scegliere tra PCA per ridurre le dimensioni e la spiegabilità?
|
|
Capisco l obiettivo di mantenere interpretabilita e la paura di perdere legami con le variabili originali con PCA. La riduzione della dimensionalita non obbliga a rinunciare completamente alle spiegazioni. Si puo usare PCA come passo iniziale e poi esplorare contributi tramite tecniche di interpretazione post hoc come importanza delle componenti e mapping back delle variabili
Dal punto di vista analitico la decisione dipende dall obiettivo finale. Se l interpretabilita delle singole variabili e critica si possono preferire approcci alternativi come selezione di feature o modelli che danno spiegazioni dirette e non solo tramite componente principali di PCA
Mi sembra che la domanda stia chiedendo se PCA metta le variabili in competizione tra loro. In realta la cosa e che le componenti catturano varianza e non hanno un significato immediatamente interpretabile. Forse sarebbe utile chiedere se vale la pena di combinare PCA con una analisi di contributo singolo sui parametri chiave
Diciamo che PCA possa sembrare un compromesso comodo ma a volte non risolve davvero il problema. Quindi magari scappa qualcosa di evidente a chi lavora con i dati. Non sono convinto che sia la soluzione migliore in tutti i casi
Potrebbe essere utile riformulare la questione in termini di bilanciamento tra spiegabilita e prestazioni e valutare modelli ibridi. Ad esempio si potrebbe usare PCA solo per ridurre rumore poi giudicare i contributi delle variabili originali tramite un modello interpretativo con PCA
Le mie letture mostrano che chi legge in modo diverso apprezza diverse chiavi di interpretazione e questo tema si presta ad essere discusso in modo eterogeneo. Nel tuo progetto cerca di annotare quali variabili hanno peso e quali sono responsabili del segnale principale senza chiedere di spiegare tutto con PCA
|
|
« Precedente | Successivo »
|

