Cos’è lo scraping?

Mi sembra giusto partire con un minimo di base per chi non ha mai sentito dire questo termine molto comune ai SEO del lato oscuro. Lo Scraping è una tecnica grazie al quale vado a leggere e raccogliere informazioni su internet attraverso un software. Ovviamente l’obiettivo molto spesso è quello di monitorare i competitor o andare alla ricerca di ricette di risotti (questo è stato il mio primo scraping J ) o addirittura andare alla ricerca di indirizzi email e telefono delle aziende che potenzialmente potessero essere interessate ai servizi dell’agenzia dove lavoro… insomma lo scraping è un cazzo di curl che analizza il codice html e si salva le informazioni sul database.. E che ci vuole… facilissimo si, fino a quando un bel giorno tutte le richieste ti danno 503 e tu resti li come un pesce lesso a cercare un altro server su cui far girare il tuo scrippettino… Bene oggi io voglio raccontarti un test che sto facendo e che mi sta dando ancora 0 ban (lo so è il caso che mi tocchi i maroni)   Per iniziare con questa ricetta vi racconto gli ingredienti che servono
  1. Un servizio MySql su Aruba… (lo so lo so, fa cagare ma ha tanti tanti tanti ip ed è in italia… godaddy o siteground no)
  2. Un po’ di hosting sempre su aruba… questo è già più difficile.. io li ho, eventualmente potete tranquillamente usare quello di qualche cliente poco consapevole… so che non si fa ma io ho testato il tutto così e poi ho comprato 30 domini che mi danno una potenza di fuoco di 130k pagine alla settimana…
Ottimo adesso ti spiego brevemente qual è il mio metodoto per gestire più algoritmi di scraping contemporaneamente.
  1. su mysql aruba creo il db che mi interessa con una tabella che mi farà da stack delle chiamate e conterrà l’url della pagina da analizzare e un id dello schema che mi servirà per interpretare quella pagina e una tabella contenente ip di ogni hosting, il dominio e la risposta dell’ultima chiamata (in questo modo se il mio hosting riceve il ban dal dominio pincopallo.it ogni volta che l’hosting andrà a leggere lo stack filtrerà la coda saltando i record del dominio dove sono stato bannato.
  2. il mio hosting principale si occuperà di popolare la tabella dello stock
  3. ogni hosting che ho su aruba contiene uno script dedicato e schedulato in modo tale che in ogni avvio venga lanciata la ricerca nella coda dello stack, prelevato l’html della pagina target e decifrato secondo lo schema e salvate tutte le informazioni sul db.
  4. Alla fine della procedura l’hosting elimina il record che aveva già precedentemente bloccato
  Questa è la soluzione che ho trovato io per evitare di acquistare strani server proxi (di cui la mia ignoranza è innata).   Buona Giornata Vincenzo