Sto cercando di automatizzare la raccolta di alcuni dati da un forum di nicchia per un progetto personale, e mi sono imbattuto nel concetto di web scraping. Ho scritto uno script semplice in Python con BeautifulSoup che funziona sulla mia macchina, ma quando provo a farlo girare sul mio VPS a basso costo, dopo un po' il sito target smette di rispondere e temo di essere stato bloccato. Non voglio assolutamente sovraccaricare i loro server, ma ho bisogno di quei dati in modo affidabile. Qualcuno ha avuto un'esperienza simile? Mi chiedo se ci sia un modo per farlo in modo più rispettoso, magari simulando meglio un comportamento umano, o se sia semplicemente una strada senza uscita con certi siti.
|
Dove fare web scraping etico senza sovraccaricare i siti?
|
|
Capisco la difficolta di farlo senza rischiare di sovraccaricare il forum Nel contesto del web scraping prova a chiedere contatti e vedere se esiste una API o un export ufficiale Così lavori in modo leale e riduci la probabilità di blocco
Nel web scraping una strategia utile e usare un rate limit reale e backoff quando serve L idea e inviare richieste non molto frequenti e inserire pause casuali tra una pagina e l altra Inoltre usa caching locale per non ritrovarti a rifare le stesse operazioni
Mi sembra che l impostazione della domanda riguardi il web scraping Ma se il sito indica esplicitamente vietato oppure senza API non conviene tentare soluzioni che sembrano aggirare le regole Cosa ne pensi del limite che imposto loro
Un approccio pratico nel web scraping e programmare il processo per momenti di basso carico del server e ridurre la velocita delle richieste con pause e limiti
Se non esiste API nel web scraping conviene pensare a una partnership per condividere i dati in chiave legale Altrimenti usa i feed ufficiali e aggiorna i dati in modo incrementale
Capisco la frustrazione nel web scraping ma non e una missione impossibile Una cosa che spesso funziona e trattare il server con rispetto e se servono dati solo alcuni pezzi non tutto subito
Un altro orientamento nel web scraping e pensare a una collaborazione strutturata con i gestori del forum magari offrendo un canale per l accesso ai dati o una API dedicata e non solo puntare al scraping
|
|
« Precedente | Successivo »
|

