Top-bewertete Apache Nutch Alternativen
20 Apache Nutch Bewertungen
Gesamtbewertungsstimmung für Apache Nutch
Melden Sie sich an, um die Bewertungsstimmung zu sehen.

Multitiefen-Crawling-Fähigkeiten sind wirklich gut. Die Datenextraktion von Webseiten ist bemerkenswert. Bewertung gesammelt von und auf G2.com gehostet.
Basierend auf MapReduce, daher langsamer. Das Hinzufügen von Anpassungen beinhaltete das Schreiben von Plugins und deren Erstellung, keine Funktion für Dependency Injection. Bewertung gesammelt von und auf G2.com gehostet.
Provides an in-depth list of features, html tags, site maps Bewertung gesammelt von und auf G2.com gehostet.
Didn't have a lot of documentation at the time I was using it which made it hard to use. Bewertung gesammelt von und auf G2.com gehostet.

Einfach zu verwenden.
Kann fast alle Arten von Inhalten durchsuchen.
Ausgezeichnetes Plugin-System.
Unterstützt verschiedene Speicher-Backends. Bewertung gesammelt von und auf G2.com gehostet.
Schwer zu meistern. Erfordert eine steile Wissenskurve.
Schlechte Dokumentation. Viele sind veraltet oder fehlerhaft.
Schwierig für ein Produktionssystem einzurichten. Bewertung gesammelt von und auf G2.com gehostet.
I used apache nutch in crawling using cygwin, in easy steps it managed to be configured and helped in collecting the desired data. Bewertung gesammelt von und auf G2.com gehostet.
I didn't see any disadvantage of it to be honest. Bewertung gesammelt von und auf G2.com gehostet.
Apache Nutch is an easy configuration application that we can used for research Bewertung gesammelt von und auf G2.com gehostet.
Its very difficult to find article about apache nutch Bewertung gesammelt von und auf G2.com gehostet.
Nutch support distributed fetching, and Hadoop support, can be multi-machine distributed fetching, storage and indexing.
Another attractive point is that it provides a plug-in framework, make it of all kinds of web content parsing, a variety of data collection, query, cluster, filtering, and other functions can be convenient to extend, it is because of this framework, the Nutch plug-in development is very easy, third-party plug-in also emerge in endlessly, greatly enhanced the function of Nutch and reputation. Bewertung gesammelt von und auf G2.com gehostet.
Nutch's crawler customization ability is relatively weak.
If the secondary development of Nutch crawler is carried out, the compilation time and debugging time of crawler will take a lot of time. Bewertung gesammelt von und auf G2.com gehostet.

Ich liebe, wie einfach es zu konfigurieren und auszuführen ist und wie es in großem Maßstab funktioniert. Die Speicherung in Hadoop ist ein Kinderspiel. Bewertung gesammelt von und auf G2.com gehostet.
Nicht ganz so einfach zu verwenden wie Werkzeuge wie Scrapy. Bewertung gesammelt von und auf G2.com gehostet.
HTTP proxy support so my IP does not get block
Nice file size filter with advanced control of network bandwidth
I heard that many big companies and government agencies are using nutch in production
Nutch has parallel reducer to make use of multiple network connections and multi-core CPU Bewertung gesammelt von und auf G2.com gehostet.
I wish nutch has built-in rate limiting support
Implemented in Java which is a bit memory hungry Bewertung gesammelt von und auf G2.com gehostet.
Fetching and parsing are done separately by default, this reduces the risk of an error corrupting the fetch parse stage of a crawl with Nutch.
* Plugins have been overhauled as a direct result of removal of legacy Lucene dependency for indexing and search.
* The number of plugins for processing various document types being shipped with Nutch has been refined.
The only parser plugins shipped with Nutch now are Feed (RSS/Atom), HTML, Ext, JavaScript, SWF, Tika & ZIP.
Nutch has had scoring plugins for quite a while, and has supported things like Adaptive Fetch schedules, and all of the Nutch data is in databases and so forth that are interrogated through the command line tools, Java, and now there is an emerging REST interface and also work to create a Python client for this as well. Bewertung gesammelt von und auf G2.com gehostet.
Nutch doesn't have to be batch mode.
So lets say that as a Nutch crawl administrator your client has tasked you with the following "Get me domain specific material from a database such as NTIS" (NTIS; the National Technical Information Service, serves as the largest central resource for government-funded scientific, technical, engineering, and business related information available today.) What this really translates to is the following:
Bewertung gesammelt von und auf G2.com gehostet.