Dove fare web scraping etico senza sovraccaricare i siti?
#1
Sto cercando di automatizzare la raccolta di alcuni dati da un forum di nicchia per un progetto personale, e mi sono imbattuto nel concetto di web scraping. Ho scritto uno script semplice in Python con BeautifulSoup che funziona sulla mia macchina, ma quando provo a farlo girare sul mio VPS a basso costo, dopo un po' il sito target smette di rispondere e temo di essere stato bloccato. Non voglio assolutamente sovraccaricare i loro server, ma ho bisogno di quei dati in modo affidabile. Qualcuno ha avuto un'esperienza simile? Mi chiedo se ci sia un modo per farlo in modo più rispettoso, magari simulando meglio un comportamento umano, o se sia semplicemente una strada senza uscita con certi siti.
Cita messaggio
#2
Capisco la difficolta di farlo senza rischiare di sovraccaricare il forum Nel contesto del web scraping prova a chiedere contatti e vedere se esiste una API o un export ufficiale Così lavori in modo leale e riduci la probabilità di blocco
Cita messaggio
#3
Nel web scraping una strategia utile e usare un rate limit reale e backoff quando serve L idea e inviare richieste non molto frequenti e inserire pause casuali tra una pagina e l altra Inoltre usa caching locale per non ritrovarti a rifare le stesse operazioni
Cita messaggio
#4
Mi sembra che l impostazione della domanda riguardi il web scraping Ma se il sito indica esplicitamente vietato oppure senza API non conviene tentare soluzioni che sembrano aggirare le regole Cosa ne pensi del limite che imposto loro
Cita messaggio
#5
Un approccio pratico nel web scraping e programmare il processo per momenti di basso carico del server e ridurre la velocita delle richieste con pause e limiti
Cita messaggio
#6
Se non esiste API nel web scraping conviene pensare a una partnership per condividere i dati in chiave legale Altrimenti usa i feed ufficiali e aggiorna i dati in modo incrementale
Cita messaggio
#7
Capisco la frustrazione nel web scraping ma non e una missione impossibile Una cosa che spesso funziona e trattare il server con rispetto e se servono dati solo alcuni pezzi non tutto subito
Cita messaggio
#8
Un altro orientamento nel web scraping e pensare a una collaborazione strutturata con i gestori del forum magari offrendo un canale per l accesso ai dati o una API dedicata e non solo puntare al scraping
Cita messaggio


Risposta rapida
Messaggio
Scrivi qui il tuo messaggio.

Verifica Immagine
Per favore inserisci il testo contenuto nell'immagine nella casella di testo sotto ad essa. Questa operazione è necessaria per prevenire gli spam bot automatici.
Verifica Immagine
(maiuscole indifferenti)

Vai al forum: