Cours de formation pour s’initier avec Apache Nutch

Participez au vote ☆☆☆☆☆★★★★★

Cours de formation pour s’initier avec Apache Nutch

Vérifiez votre installation Nutch

1) Accédez au répertoire local d’apache nutch (/../ apache-nutch-2.2.1 / runtime / local) à partir du terminal et tapez la commande ci-dessous, bin / nutch

Si tout réussit, vous obtiendrez un résultat inférieur à la sortie. Utilisation: nutch COMMAND

La plupart des commandes affichent de l'aide lorsqu'elles sont appelées sans paramètres.

2) Exécutez la commande suivante si vous voyez "Autorisation refusée": chmod + x bin / nutch

3) Configurez JAVA_HOME si JAVA_HOME n'est pas défini. Sur Mac, vous pouvez exécuter la commande suivante ou l'ajouter à ~ / .bashrc: export JAVA_HOME = Analysez votre premier site Web.

1) Ajoutez le nom de votre agent dans le champ de valeur de la propriété http.agent.name dans nutch-site.xml (/../ apache-nutch-2.2.1 / runtime / local / conf), par exemple:

<propriété>

http.agent.name

Mon Araignée Nutch

2) Allez dans le répertoire local (/../ apache-nutch-2.2.1 / runtime / local) de apache nutch et créez un répertoire appelé urls.

3) urls de cd

4) Tapez la commande ci-dessous pour créer le fichier seed.txt sous urls / avec le contenu suivant (une URL par ligne pour chaque site que Nutch doit analyser).

touchez seed.txt

5) Modifiez le fichier en mettant ci-dessous le contenu,

6) Editez le fichier regex-urlfilter.txt (/../ apache-nutch-2.2.1 / conf) et remplacez

# accepte rien d'autre +. avec une expression régulière correspondant au domaine que vous souhaitez analyser. Par exemple, si vous souhaitez limiter l’exploration au domaine nutch.apache.org, la ligne suivante doit se lire:

+ ^ http: // ([a-z0-9] * \.) * nutch.apache.org /

Cela inclura toutes les URL du domaine nutch.apache.org.

Analyse du site Web à l'aide du script d'analyse

P.S: Je l’ai testé avec la version 3.6.2 de Solr. Si vous voulez l’exécuter avec une version plus récente, vous devez le configurer en conséquence.

2) l'extraire.

3) Allez au répertoire exemple (/../ apache-solr-3.6.2 / exemple) du terminal.

4) Tapez la commande ci-dessous, java -jar start.jar

Si tout réussit alors vous obtiendrez en dessous de la sortie,

...

5948 [main] INFO org.eclipse.jetty.server.AbstractConnector - Démarré

SocketConnector@0.0.0.0: 8983

5) Vérifiez l’installation de solr en appuyant sur l’URL ci-dessous dans le navigateur, http: // localhost: 8983 / solr / admin /.

6) Nutch et Solr sont tous deux installés et configurés correctement. Et Nutch a déjà créé des données d’exploration à partir de l’URL d’origine. Vous trouverez ci-dessous les étapes à suivre pour déléguer la recherche à Solr afin de permettre la recherche de liens:

7) cp /../apache-nutch-2.2.1/conf/schema.xml /../apache-solr-

3.6.2 / exemple / solr / conf /

8) Redémarrez Solr avec la commande “java -jar start.jar” sous /../apache-solr-

3.6.2 / exemple

9) Allez dans le répertoire personnel de hbase (/../ hbase-0.90.4) depuis le terminal et démarrez hbase avec la commande ci-dessous, ./bin/start-hbase.sh

Si tout réussit, vous obtiendrez en dessous de la sortie, en commençant par Maître, en vous connectant à logs / hbase-user-master-example.org.out

Si vous obtenez un résultat en dessous, cela signifie que hbase est déjà démarré. Inutile de le démarrer. maître en cours d'exécution en tant que processus 2948. Arrêtez-le d'abord.

10) Accédez au répertoire local (/../ apache-nutch-2.2.1 / runtime / local) du terminal et tapez la commande ci-dessous, bin / crawl urls / seed.txt TestCrawl http: // localhost: 8983 / solr / 2

Si tout réussit alors vous obtiendrez en dessous de la sortie,

...

Ajout de 1 documents

SOLR dedup -> http: // localhost: 8983 / solr /

Le script d'analyse a beaucoup de paramètres définis et vous pouvez les modifier selon vos besoins. Il serait idéal de comprendre les paramètres avant d’établir de grandes analyses.

Analyse des filtres Web, CrawlDb et URL

L'analyse du Web est déjà expliquée ci-dessus. Vous pouvez ajouter d'autres URL dans le fichier seed.txt et l'explorer de la même manière.

L'analyse du crawlDB est automatiquement effectuée par le script d'analyse, comme indiqué ci-dessus.Avant, nous devons le faire manuellement. Mais les développeurs d'apache-nutch le remplacent par le script d'analyse. Je définis simplement les étapes suivies par le script d'analyse pour CrawlDB.

1) Générer: $ bin / nutch générer $ commonOptions -topN $ sizeFetchlist -noNorm -noFilter -adddays $ addDays -crawlId $ CRAWL_ID –batchId $ batchId

2) Récupérer: $ bin / nutch fetch $ commonOptions –D fetcher.timelimit.mins = $ timeLimitFetch $ batchId -crawlId $ CRAWL_ID

-threads 50

3) Analyse: $ bin / nutch analyse $ commonOptions $ skipRecordsOptions $ batchId

-crawlId $ CRAWL_ID

4) Mise à jour: $ bin / nutch updatedb $ commonOptions -crawlId $ CRAWL_ID

URLFilters est également expliqué ci-dessus. Pour référence, suivez la 6ème étape de la rubrique «Explorez votre premier site Web» ci-dessus.

Filtres d'analyse et d'analyse

L'analyse contient le texte analysé de chaque URL, les URL de liens externes utilisées pour mettre à jour crawldb, ainsi que les liens externes et les métadonnées analysés à partir de chaque URL.

L'analyse est également effectuée à l'aide d'un script d'analyse, comme expliqué ci-dessus.Pour le faire manuellement, vous devez d'abord exécuter les commandes inject, generate et fetch. Accédez au répertoire local d'apache-nutch (/../ apache-nutch-2.2.1 / runtime / local) et tapez la commande ci-dessous, pour Inject: bin / nutch inject urls (vous pouvez transmettre différents arguments selon vos besoins).

Pour Generate: bin / nutch generate -topN 1 (vous pouvez transmettre différents arguments selon vos besoins)

Pour Fetch: bin / nutch fetch -all (vous pouvez transmettre différents arguments selon vos besoins)

Pour parse: bin / nutch parse -all (vous pouvez transmettre différents arguments selon vos besoins)

Filtres d'analyse:

HtmlParseFilter - Permet à un utilisateur d'ajouter des métadonnées supplémentaires aux analyses HTML.

Analyse, analyse des liens et notation

Programme d'analyse de liens qui converge vers des scores globaux stables pour chaque URL.

WebGraph

Le programme WebGraph est le premier travail à exécuter lorsque tous les segments sont extraits et prêts à être traités. WebGraph se trouve à

org.apache.nutch.scoring.webgraph.WebGraph. Vous trouverez ci-dessous une impression de l’utilisation des programmes. utilisation: WebGraph

-help afficher ce message d'aide

-segment le (s) segment (s) à utiliser

-webgraphdb base de données de graphes Web à utiliser Le programme WebGraph peut traiter plusieurs segments et nécessite un répertoire de sortie dans lequel placer les composants de graphes Web terminés. WebGraph crée trois composants différents: une base de données inlink, une base de données outlink et une base de données de nœuds. La base de données inlink est une liste d'URL et de tous ses liens. La base de données de liens externes est une liste d'URL et de tous ses liens externes. La base de données de noeuds est une liste d'URL avec les méta-informations de noeud, y compris le nombre de liens entrants et sortants, et éventuellement le score de ce noeud.

Boucles

Une fois le graphique Web créé, nous pouvons commencer le processus d'analyse des liens. Loops est un programme facultatif qui aide à éliminer les sites de courrier indésirable en déterminant les cycles de liens dans un graphique Web. Les sites A, B, C et D sont un exemple de cycle de liaison. A, B, B, C, D, C, C exigence, ne peut être exécuté sur une profondeur supérieure à trois ou quatre niveaux. Bien qu'il identifie les sites qui semblent être du spam et que ces liens soient ensuite actualisés dans le dernier programme LinkRank, son rapport avantages / coûts est très faible. Il est inclus dans ce package pour des raisons d'exhaustivité et parce qu'il peut exister un meilleur moyen d'effectuer cette fonction avec un algorithme différent. Cependant, sur les graphiques Web de grande production actuels, son utilisation est découragée. Les boucles se trouvent à org.apache.nutch.scoring.webgraph.Loops. Vous trouverez ci-dessous une impression de l’utilisation des programmes.

utilisation: boucles

-help afficher ce message d'aide

-webgraphdb la base de données de graphes Web à utiliser LinkRank

Avec le graphique Web créé, nous pouvons maintenant exécuter LinkRank pour effectuer une analyse de lien itérative. LinkRank est un programme d'analyse de liens semblable à PageRank qui converge vers des scores globaux stables pour chaque URL. Semblable à PageRank, le programme LinkRank commence par un score commun pour toutes les URL. Il crée ensuite un score global pour chaque URL en fonction du nombre de liens entrants et des scores de ces liens ainsi que du nombre de liens sortants de la page. Le processus est itératif et les scores ont tendance à converger après un nombre donné d'itérations. Il est différent de PageRank en ce que les liens népotiques tels que les liens internes à un site Web et les liens réciproques entre sites Web peuvent être ignorés. Le nombre d'itérations peut également être configuré; Par défaut, 10 itérations sont effectuées. Contrairement à la notation précédente de l'OPIC, le programme LinkRank ne conserve pas les scores d'une période de traitement à l'autre. Le graphique Web et les scores de liens sont recréés à chaque cycle de traitement, ce qui évite les problèmes liés à l'augmentation constante du nombre de scores. LinkRank exige que le programme WebGraph soit terminé avec succès et stocke ses scores de sortie pour chaque URL dans la base de données de noeuds du graphique Web. LinkRank se trouve à l'adresse org.apache.nutch.scoring.webgraph.LinkRank. Vous trouverez ci-dessous une impression de l’utilisation des programmes.

utilisation: LinkRank

-help afficher ce message d'aide

-webgraphdb la base de données graphique Web à utiliser ScoreUpdater

Une fois que le programme LinkRank a été exécuté et que l’analyse des liens est terminée, les scores doivent être mis à jour dans la base de données d’exploration pour fonctionner avec les fonctionnalités actuelles de Nutch. Le programme ScoreUpdater prend les partitions stockées dans la base de données de noeuds du graphique Web et les met à jour dans crawldb. Si une URL existe dans le crawldb qui n'existe pas dans le graphique Web, son score est effacé dans le crawldb. ScoreUpdater exige que les programmes WebGraph et LinkRank aient été exécutés et nécessite une base de données d'analyse pour la mise à jour. ScoreUpdater se trouve à l'adresse org.apache.nutch.scoring.webgraph.ScoreUpdater. Vous trouverez ci-dessous une impression de l’utilisation des programmes. utilisation: ScoreUpdater

-crawldb le crawldb à utiliser

-help afficher ce message d'aide

-webgraphdb la webgraphdb pour utiliser le scoring

P.S: Apache-nutch 2.2.1 ne le supporte pas. Je l’ai donc configuré avec apache-nuch-1.7.Vous pouvez installer apache-nutch-1.7 de la même manière que apach-nucth-

2.2.1 La nouvelle fonctionnalité de scoring est disponible dans org.apache.nutch.scoring.webgraph. Ce paquet contient plusieurs programmes qui construisent des graphiques Web, effectuent une analyse des liens convergents stable et mettent à jour crawldb avec ces scores. Pour effectuer le scoring, accédez au répertoire local (/../ apachenutch-1.7 / runtime / local) à partir du terminal d'apache -nutch et tapez ci-dessous les commandes,

bin / nutch inject crawl / crawldb urls /

bin / nutch génère crawl / crawldb / crawl / segments

bin / nutch analyse / segments / xxxxxxxxxxxxxx /

bin / nutch updatedb crawl / crawldb / crawl / segments / xxxxxxxxxxxxxxxxxx /

bin / nutch org.apache.nutch.scoring.webgraph.WebGraph -segment

analyse / segments / xxxxxxxxxxxxxxx / -webgraphdb analyse / webgraphdb

Une chose à souligner ici est que WebGraph est destiné à être utilisé sur des analyses Web plus larges pour créer des graphiques Web. Par défaut, il ignore les liens sortants vers les pages du même domaine, y compris les sous-domaines, et les pages portant le même nom d'hôte. Il limite également à un lien sortant par page les liens dans la même page ou le même domaine. Toutes ces options sont modifiables via les options de configuration suivantes:

<! - propriétés de notation linkrank ->

<propriété>

link.ignore.internal.host

vrai

Ignorer les liens sortants vers le même nom d'hôte.

<propriété>

link.ignore.internal.domain

vrai

Ignorer les liens sortants vers le même domaine.

<propriété>

link.ignore.limit.page

vrai

Limiter à un seul lien sortant vers la même page.

<propriété>

link.ignore.limit.domain

vrai

Limiter à un seul lien sortant vers le même domaine.

Mais par défaut, si vous explorez uniquement les pages d’un domaine ou d’un ensemble de sous-domaines, tous les liens externes sont ignorés et vous obtenez un graphique Web vide. Cela générera une erreur lors du traitement via le travail LinkRank. Le revers de la médaille est de NE PAS ignorer les liens vers le même domaine / hôte et de ne pas limiter ces liens, le graphique Web devient beaucoup, beaucoup plus dense et par conséquent, il y a beaucoup plus de liens à traiter qui n'affecteront probablement pas autant la pertinence.

bin / nutch org.apache.nutch.scoring.webgraph.Loops -webgraphdb

crawl / webgraphdb /

bin / nutch org.apache.nutch.scoring.webgraph.LinkRank -webgraphdb

crawl / webgraphdb /

bin / nutch org.apache.nutch.scoring.webgraph.ScoreUpdater -crawldb

analyse / crawldb -webgraphdb analyse / webgraphdb /

bin / nutch org.apache.nutch.scoring.webgraph.NodeDumper -scores -topn 1000

-webgraphdb crawl / webgraphdb / -output crawl / webgraphdb / dump / scores

bin / nutch readdb crawl / crawldb / -stats