Top-bewertete Apache Nutch Alternativen
19 von 20 Gesamtbewertungen für Apache Nutch
Gesamtbewertungsstimmung für Apache Nutch
Melden Sie sich an, um die Bewertungsstimmung zu sehen.

Als ich Apache Nutch benutzte, war ich von der Geschwindigkeit beeindruckt, mit der es Daten durchsucht, sowie von den Bibliotheken und Datenstrukturen, die zur Anpassung des Crawlings und zum Lesen der Daten im gewünschten Format bereitgestellt werden. Ich durchsuchte die gesamten IBM-Daten, um Erkenntnisse zu gewinnen und Textanalysen durchzuführen. Die Unterstützung, die ich von den Foren erhielt, war ebenfalls großartig. Insgesamt war es also eine schöne Erfahrung, den Apache Nutch Crawler zu verwenden. Bewertung gesammelt von und auf G2.com gehostet.
Was mir nicht gefiel, war die Video-Unterstützung, die es im Internet bietet. Bewertung gesammelt von und auf G2.com gehostet.

Open Source
Skalierbar
Parsing- und Indexierungstechniken.
Einfache Integration mit Elasticsearch und Solr.
Verschiedene Plugins zum Parsen verschiedener Inhaltstypen. Bewertung gesammelt von und auf G2.com gehostet.
Nicht viel auf meiner Liste der Abneigungen, weil wir es wirklich sehr genossen haben und es unsere organisatorischen Bedürfnisse erfüllt hat. Aber basierend auf Erfahrung kann ich einige Nachteile nennen, wie dass es eine gute Infrastruktur erfordert und eine beträchtliche Menge an Speicher und CPU-Auslastung verbraucht. Wir haben auch das Gefühl, dass es sehr hilfreich für uns wäre, wenn Nutch ein gutes Dashboard und eine Art Admin-Panel bereitstellen würde. Bewertung gesammelt von und auf G2.com gehostet.
Es war ein Open-Source-Tool, dem Sie Ihre eigenen Plugins hinzufügen können. Sie können den eigenen Code nach Belieben ändern. Es war sehr einfach zu bedienen. Es kann auch mit verschiedenen Tools ausgeführt werden. Bewertung gesammelt von und auf G2.com gehostet.
Sie sollten wissen, welche Version von Nutch für andere Werkzeuge geeignet ist, mit denen Sie arbeiten. Bewertung gesammelt von und auf G2.com gehostet.

Ich benutze Apache Nutch seit 3 oder 4 Jahren, ich mag es als Open-Source-Tool, das auf einem System mit normalen Spezifikationen laufen kann und Millionen von Seiten crawlen kann. Bewertung gesammelt von und auf G2.com gehostet.
* Ich mag seinen Algorithmus zur Erstellung von Seeds nicht, er bildet Cluster und geht dann in eine Schleife, um dieselben Websites zu durchsuchen, wenn er Millionen von Seiten durchsucht hat.
* Seine Konfiguration ist nicht einfach.
* Dokumentation ist nicht gut.
* Support ist nicht gut. Bewertung gesammelt von und auf G2.com gehostet.

-Einfach zu konfigurieren
-Stabiler Backend-Speicher Bewertung gesammelt von und auf G2.com gehostet.
Die Verwendung von Java macht es etwas sperrig. Man muss auf die Heap-Größe achten, sonst sind OOM-Fehler unvermeidlich. Bewertung gesammelt von und auf G2.com gehostet.

Crawl von URL ist eine ausgezeichnete Funktion, um den Inhalt zu lesen. Nutch ist ein sehr nützliches Werkzeug, um den Inhalt im Dokument in verschiedenen Tiefen zu lesen. Bewertung gesammelt von und auf G2.com gehostet.
Etwas schwierig, die Crawl-Funktion anzupassen. Bewertung gesammelt von und auf G2.com gehostet.

Plugins für Indizierung und Suche.
Integration mit Solar und anderen Tools.
Es funktioniert auch gut in Hadoop-Clustern. Bewertung gesammelt von und auf G2.com gehostet.
Mangel an Gemeinschaft, um über ein beliebiges Problem oder Anliegen zu diskutieren.
Mangel an Dokumenten für die Implementierung und Integration von Nutch. Bewertung gesammelt von und auf G2.com gehostet.

Seine Funktion, das gesamte Web mit internen und externen Links zu durchsuchen, was es zu einem unendlichen Crawling macht. Bewertung gesammelt von und auf G2.com gehostet.
Wir müssen ein sehr starkes Wissen über Apache Hadoop, Hbase, Zookeeper und die vollständige Einrichtung der Umgebung haben. Wir müssen darin sehr effizient sein, um dies zu nutzen. Außerdem können wir Hbase-Daten nicht leicht einsehen, was ebenfalls sehr schwierig ist. Bewertung gesammelt von und auf G2.com gehostet.

Ich habe Nutch mehrmals eingesetzt, wenn ich schnell einen Crawler aufstellen musste. Es ist kostenlos, unkompliziert, zuverlässig, gut dokumentiert und kommt mit einer OTS-Integration mit Apache Solr für die Suche. Bewertung gesammelt von und auf G2.com gehostet.
Das Verzeichnis- und Dateipartitionierungsschema für den Crawler kann etwas verwirrend sein. Bewertung gesammelt von und auf G2.com gehostet.