Research and Development 1/^Archief/2009-2010/10/Pilot/Crawlers

Hieronder staat een lijst van bestaande open-source crawlers die we onderzocht hebben.

wget

Kan mooi samenwerken met AWK en/of grep, alle drie kennen een uitvoerige documentatie.

zeer uitvoerige documentatie [1]

wget is het component dat de pagina van het internet download (als HTML String). De crawler dus, in feite. Het scraping gedeelte wordt gedaan door AWK en/of grep.

wget -> (recursief) downloaden van bestanden:

wget http://voorbeeld.nl/voorbeeld.htm

downloadt het genoemde bestand.

wget -r http://voorbeeld.nl/voorbeeld.htm

recursief downloaden van website

wget -r -l 3 http://voorbeeld.nl/voorbeeld.htm

recursief downloaden tot diepte 3

lijstje met wget options: http://www.computerhope.com/unix/wget.htm

--follow-tags=list Wget has an internal table of HTML tag / attribute pairs that it considers when looking for linked documents during a recursive retrieval. If a user wants only a subset of those tags to be considered, however, he or she should be specify such tags in a comma-separated list with this option.

Scrapy

Documentatie is duidelijk minder
Weinig voorbeelden beschikbaar
Mooie 'alles-in-1'-oplossing
Krachtige software
Wij zijn alleen niet zo sterk met Python...

Crawler4j

Erg overzichtelijk en duidelijk
Eenvoudig genoeg om binnen no-time een crawler/scraper te maken die eenvoudig aan te passen is aan onze wensen.
Java, dus sluit voor 1 van ons 3en mooi aan op de cursus Object-Oriëntatie.
Naar het crawl gedeelte hoef je niet echt meer te kijken, je kunt je focussen op het extraheren van bruikbare data.

Research and Development 1/^Archief/2009-2010/10/Pilot/Crawlers

wget

Scrapy

Crawler4j

Navigatiemenu

Persoonlijke instellingen

Naamruimten

Varianten

Weergaven

Meer

zoek

Afdrukken/exporteren

Hulpmiddelen