Meilleures alternatives à Apache Nutch les mieux notées
Avis sur 20 Apache Nutch
Sentiment de l'avis global pour Apache Nutch
Connectez-vous pour consulter les sentiments des avis.

Quand j'ai utilisé Apache Nutch, j'ai été étonné par la vitesse à laquelle il explore les données et par les bibliothèques et structures de données fournies pour personnaliser votre exploration et lire les données dans le format souhaité. J'explorais toutes les données d'IBM pour obtenir des insights et faire de l'analyse de texte dessus. Le type de soutien que j'ai reçu des forums était également excellent. Donc, dans l'ensemble, c'était une belle expérience d'utiliser le crawler Apache Nutch. Avis collecté par et hébergé sur G2.com.
Ce que je n'aimais pas, c'était le support vidéo qu'il fournit sur Internet. Avis collecté par et hébergé sur G2.com.

Source ouverte
Évolutif
Techniques d'analyse et d'indexation.
Intégration facile avec elastic search et solr.
Différents plugins pour analyser divers types de contenu. Avis collecté par et hébergé sur G2.com.
Pas grand-chose dans ma liste de désagréments car nous l'avons vraiment beaucoup apprécié et cela a répondu à nos besoins organisationnels. Mais d'après l'expérience, je peux dire quelques inconvénients comme le fait qu'il nécessite une bonne infrastructure en place et consomme une bonne quantité de mémoire et d'utilisation du processeur. Nous pensons également que si Nutch fournissait un bon tableau de bord et une sorte de panneau d'administration, cela nous serait très utile. Avis collecté par et hébergé sur G2.com.
C'était un outil open source auquel vous pouvez ajouter vos propres plugins. Vous pouvez modifier son code comme vous le souhaitez. C'était très facile à utiliser. Il peut également être exécuté avec différents outils. Avis collecté par et hébergé sur G2.com.
Vous devez savoir quelle version de nutch est compatible avec les autres outils avec lesquels vous travaillez. Avis collecté par et hébergé sur G2.com.

J'utilise Apache Nutch depuis 3 ou 4 ans, je l'aime comme un outil open source qui peut fonctionner sur un système avec des spécifications normales et explorer des millions de pages. Avis collecté par et hébergé sur G2.com.
* Je n'aime pas son algorithme de création de graines, il crée des clusters puis entre dans une boucle pour explorer les mêmes sites web lorsqu'il a exploré des millions de pages.
* Sa configuration n'est pas facile.
* Les automatisations de tâches ne sont pas fournies.
* La documentation n'est pas bonne.
* Le support n'est pas bon. Avis collecté par et hébergé sur G2.com.

-Backend store stable Avis collecté par et hébergé sur G2.com.
L'utilisation de Java le rend un peu encombrant. On doit être prudent avec la taille du tas, sinon les erreurs OOM sont inévitables. Avis collecté par et hébergé sur G2.com.

L'exploration d'URL est une fonction excellente pour lire le contenu. Nutch est un outil très utile pour lire le contenu dans le document de diverses profondeurs. Avis collecté par et hébergé sur G2.com.
Un peu difficile de personnaliser la fonction de crawl. Avis collecté par et hébergé sur G2.com.

Plugins pour l'indexation et la recherche.
Intégration avec Solar et d'autres outils.
Il fonctionne également bien dans les clusters Hadoop. Avis collecté par et hébergé sur G2.com.
Manque de communauté pour discuter de tout problème ou préoccupation.
Manque de documents pour la mise en œuvre et l'intégration de nutch. Avis collecté par et hébergé sur G2.com.

Sa fonctionnalité de parcourir le web complet avec des liens entrants et sortants qui le rendent capable de parcourir indéfiniment. Avis collecté par et hébergé sur G2.com.
Nous devons avoir une connaissance très approfondie d'Apache Hadoop, Hbase, Zookeeper, et de la configuration complète de l'environnement. Nous devons être très efficaces dans son utilisation. De plus, nous ne pouvons pas visualiser facilement les données Hbase, ce qui est également très difficile. Avis collecté par et hébergé sur G2.com.

J'ai déployé Nutch plusieurs fois lorsque j'avais besoin de mettre en place rapidement un crawler. Il est gratuit, simple, fiable, bien documenté, et est fourni avec une intégration OTS avec Apache Solr pour la recherche. Avis collecté par et hébergé sur G2.com.
Le schéma de partitionnement des répertoires et des fichiers pour le robot d'exploration peut être un peu déroutant. Avis collecté par et hébergé sur G2.com.