Research and Development 1/^Archief/2009-2010/10/Pilot/Crawlers
Hieronder staat een lijst van bestaande open-source crawlers die we onderzocht hebben.
wget
Kan mooi samenwerken met AWK en/of grep, alle drie kennen een uitvoerige documentatie.
- zeer uitvoerige documentatie [1]
wget is het component dat de pagina van het internet download (als HTML String). De crawler dus, in feite. Het scraping gedeelte wordt gedaan door AWK en/of grep.
wget -> (recursief) downloaden van bestanden:
wget http://voorbeeld.nl/voorbeeld.htm
downloadt het genoemde bestand.
wget -r http://voorbeeld.nl/voorbeeld.htm
recursief downloaden van website
wget -r -l 3 http://voorbeeld.nl/voorbeeld.htm
recursief downloaden tot diepte 3
lijstje met wget options: http://www.computerhope.com/unix/wget.htm
--follow-tags=list Wget has an internal table of HTML tag / attribute pairs that it considers when looking for linked documents during a recursive retrieval. If a user wants only a subset of those tags to be considered, however, he or she should be specify such tags in a comma-separated list with this option.
Scrapy
- Documentatie is duidelijk minder
- Weinig voorbeelden beschikbaar
- Mooie 'alles-in-1'-oplossing
- Krachtige software
- Wij zijn alleen niet zo sterk met Python...
Crawler4j
- Erg overzichtelijk en duidelijk
- Eenvoudig genoeg om binnen no-time een crawler/scraper te maken die eenvoudig aan te passen is aan onze wensen.
- Java, dus sluit voor 1 van ons 3en mooi aan op de cursus Object-Oriëntatie.
- Naar het crawl gedeelte hoef je niet echt meer te kijken, je kunt je focussen op het extraheren van bruikbare data.