Chrome Web Scraper Tutorial från Semalt Expert

Om du använder Google Chrome finns det ett tillägg för din webbläsare som kan hjälpa till att skrapa webbsidor. Det är känt som '' Scrapper '', och det kan användas utan problem. Scrapper hjälper till att skrapa ett webbplatsinnehåll och ladda upp resultaten till Google-dokument.

Hur skrotar jag en webbplats med Scraper-tillägg?

1. Välj Chrome Web Store i Google Chrome;

2. Utför en sökning efter '' Scrapper '';

3. Det första sökresultatet är tillägget som kallas '' Scrapper '';

4. Välj knappen "Lägg till Chrome";

5. Gå tillbaka till listan över de brittiska ledamöterna.

6. Klicka på följande länk ;

7. Leta nu efter en MP och se till att posten är markerad.

8. Högerklicka för att välja alternativet "Skrapa liknande ...";

9. Konsolen för skrotaren dyker upp i ett annat fönster;

10. Visa det skrapade innehållet i skraparkonsolen;

11. För att säkerställa att innehållet sparas som ett Google-kalkylblad väljer du "Spara i Google Dokument ..."

Utökad skrapning

Innan du håller dig till detta recept är det bra att förstå grunderna i HTML. Till exempel kan du läsa en kort introduktion till HTML via den här länken

Låt oss föreställa oss att vi är intresserade av alla filmer som har spelat Asia Argento, en berömd italiensk skådespelerska.

1. Det finns ett mycket detaljerat arkiv med skådespelare i IMDB. Asia Argento-webbplatsen är: http://www.imdb.com/name/nm0000782/;

2. Här kan du se alla roller som skådespelerskan spelar. Låt oss börja skrapa den information vi är intresserad av;

3. Försök att skrapa det på samma sätt som det beskrivs ovan;

4. Du ser att listan är lite förvrängd. Detta beror på att listan här kan struktureras annorlunda;

5. Gå till skrapkonsolen. Uppe till vänster ser du den lilla rutan som säger XPath;

6. Xpath är ett slags frågespråk som fungerar för XML och HTML;

7. XPath kan hjälpa till att hitta de delar av sidan du är intresserad av. Nästa sak är att hitta ett lämpligt element och skriva XPath för det;

8. Låt oss nu ordna vårt bord;

9. Du kommer att se att vår befintliga XPath, som har all data som behövs är "// div [3] / div [3] / div [2] / div";

10. XPath informerar systemet att se HTML-dokumentet och välja det tredje elementet, sedan det andra elementet och sedan alla dem;

11. Men vi vill att våra uppgifter ska separeras.

12. Använd kolumnavsnittet i konsolen för att få bort detta.

13. Låt oss först hitta vår titel РЂњР‚“ Använd Inspect Element för att visa titeln;

14. Kontrollera titeln i en tagg. Lägg till taggen i XPath;

15. Uttrycket verkar fungera på rätt sätt, så gör det till vår första kolumn;

16. I avsnittet "Kolumner", ersätt den första kolumnens namn till "titel";

17. Lägg XPath till den;

18. I kolumnavsnittet är XPaths relativa och det betyder att "./b" kommer att välja <b> elementet

19. Lägg till "./b" i XPath för titelkolumnen och välj "skrapa";

20. Nu ska vi fortsätta i ett år. År finns inom ett intervall;

21. Skapa en ny kolumn genom att välja det lilla plus bredvid kolumnen för din titel;

22. Använd XPath "./span" skapa en kolumn för "år";

23. Klicka på skrapa och se hur året lades till;

24. Klar!

mass gmail