Research and Development 1/^Archief/2009-2010/10/Pilot/Crawlers

Uit Werkplaats
Ga naar: navigatie, zoeken

Hieronder staat een lijst van bestaande open-source crawlers die we onderzocht hebben.

wget

Kan mooi samenwerken met AWK en/of grep, alle drie kennen een uitvoerige documentatie.

  • zeer uitvoerige documentatie [1]

wget is het component dat de pagina van het internet download (als HTML String). De crawler dus, in feite. Het scraping gedeelte wordt gedaan door AWK en/of grep.

wget -> (recursief) downloaden van bestanden:

wget http://voorbeeld.nl/voorbeeld.htm

downloadt het genoemde bestand.

wget -r http://voorbeeld.nl/voorbeeld.htm

recursief downloaden van website

wget -r -l 3 http://voorbeeld.nl/voorbeeld.htm

recursief downloaden tot diepte 3

lijstje met wget options: http://www.computerhope.com/unix/wget.htm


--follow-tags=list Wget has an internal table of HTML tag / attribute pairs that it considers when looking for linked documents during a recursive retrieval. If a user wants only a subset of those tags to be considered, however, he or she should be specify such tags in a comma-separated list with this option.

Scrapy

  • Documentatie is duidelijk minder
  • Weinig voorbeelden beschikbaar
  • Mooie 'alles-in-1'-oplossing
  • Krachtige software
  • Wij zijn alleen niet zo sterk met Python...

Crawler4j

  • Erg overzichtelijk en duidelijk
  • Eenvoudig genoeg om binnen no-time een crawler/scraper te maken die eenvoudig aan te passen is aan onze wensen.
  • Java, dus sluit voor 1 van ons 3en mooi aan op de cursus Object-Oriëntatie.
  • Naar het crawl gedeelte hoef je niet echt meer te kijken, je kunt je focussen op het extraheren van bruikbare data.