Marche à suivre pour spécifier la langue du contenu, traiter les documents rejetés et utiliser des balises de crawler :
Dans la liste déroulante sous Langue du contenu, choisissez la langue utilisée dans la majorité du contenu que vous souhaitez importer.
Sous Documents rejetés, spécifiez la façon de traiter les documents ne pouvant pas être rangés dans un dossier à l'issue du tri :
Pour importer ces documents quand même, choisissez
Importer dans le dossier des documents
non classés.
Remarque : Le dossier des documents non classés est
mis à la disposition des utilisateurs disposant d'un
accès aux documents non classés. Pour accéder à des documents non
classés, cliquez sur Modifier le répertoire
dans le menu du répertoire et ouvrez le dossier Documents
non classés. Vous pouvez également cliquer sur Administration
| Sélectionner un utilitaire
| Accès aux documents non classés.
Pour éviter d'importer ces documents, choisissez Ne pas importer.
Si vous êtes en train de modifier un crawler existant, la section Importation de documents est visible. Sous Importation de documents, précisez si l'importation doit être limitée aux nouveaux documents. Par défaut, ce crawler ne s'occupe que d'importer les nouveaux documents (ceux qui n'ont pas encore été importés par ce crawler ou par d'autres crawlers ayant accès à cette même source de contenu). Vous pouvez changer les paramètres du crawler pour importer plusieurs exemplaires de chaque document, ce qui peut être utile pendant la phase d'essai des crawlers.
Pour n'importer que les nouveaux documents, sélectionnez Importer uniquement les nouveaux liens et de nouvelles options apparaissent ; sinon, passez à l'étape 4.
Marche à suivre pour préciser la signification de « nouveaux liens » :
Pour n'importer que les documents qui n'ont pas encore été importés par ce crawler, choisissez par ce crawler.
Pour n'importer que les documents qui n'ont pas été importés depuis la source de contenu de ce crawler (que ce soit par ce crawler, un autre crawler, ou manuellement par un utilisateur), choisissez dans cette source de contenu.
Remarque : L'option que vous choisissez ici affecte les actions de l'étape 3f et de l'étape 4.
Pour actualiser les documents déjà importés selon les spécifications de la page Paramètres des documents, sélectionnez les actualiser. En règle générale, l'actualisation des documents est assurée par l'agent d'actualisation de document car le processus d'actualisation des documents tend à ralentir le crawler. Cependant, si vous avez changé les paramètres de document pour ce crawler ou changé les correspondances de propriétés dans les types de contenu associés, le fait d'actualiser les documents a pour effet de mettre ces paramètres à jour pour les documents déjà importés.
Si vous avez créé des dossiers supplémentaires
ou appliqué des filtres différents aux dossiers destinataires, sélectionnez
essayer de les trier en dossiers supplémentaires
pour trier les documents déjà importés dans de nouveaux dossiers du répertoire
de connaissances.
Il est possible qu'un autre crawler ait importé des documents depuis
la même source de données mais dans des dossiers différents des dossiers
destinataires spécifiés pour ce crawler. Vérifiez de bien vouloir trier
à nouveau ces documents dans les dossiers destinataires spécifiés pour
ce crawler.
Pour réimporter des documents déjà supprimés (manuellement, pour cause d'expiration ou pour cause d'absence des documents source), sélectionnez régénérer les liens supprimés. Il est possible que cela réimporte des documents qui avaient été jugés ne pas convenir à votre portail.
En cas de nécessité absolue, vous pouvez supprimer l'enregistrement des documents ayant été supprimés du portail. Le terme « Historique » est interprété en fonction de la définition des nouveaux documents à l'étape 3b :
Si vous choisissez « par ce crawler », l'historique inclut tous les documents importés par ce crawler et ayant été supprimés.
Si vous choisissez « dans cette source de contenu », l'historique inclut tous les documents importés dans cette source de contenu et ayant été supprimés. Par conséquent, vous supprimez essentiellement l'historique de tous les crawlers qui importent des documents depuis cette source de contenu.
Si vous êtes toujours convaincu de devoir supprimer l'enregistrement des documents supprimés du portail, cliquez sur Effacer l'historique des suppressions.
Si vous êtes en train de modifier un crawler existant, des options supplémentaires sont visibles sous Documents rejetés. Sous Documents rejetés, indiquez la marche à suivre quand ce crawler trouve un document déjà rejeté. Là encore, la définition de « déjà rejeté » dépend de l'option choisie à l'étape 3b :
Si vous avez choisi « par ce crawler », les documents déjà rejetés comprennent tous les documents rejetés par ce crawler.
Si vous avez choisi « dans cette source de contenu », les documents déjà rejetés comprennent tous les documents rejetés dans cette source de contenu.
Pour que ce crawler tente d'importer les documents déjà rejetés, sélectionnez Réimporter.
Pour supprimer l'historique des rejets, cliquez sur Effacer l'historique de rejet. N'oubliez pas que si vous choisissez « dans cette source de contenu » à l'étape 3b, cela revient essentiellement à supprimer l'historique des rejets de tous les crawlers qui importent des documents depuis cette source de contenu.
Remarque : Un document qui n'est classé dans aucun dossier et qui se trouve dans le dossier Documents non classés n'est pas considéré comme ayant été rejeté. Les documents rejetés sont des documents qui n'ont été placés dans aucun dossier.
Pour marquer les documents importés à l'aide d'une balise de crawler, tapez le texte de la balise dans la zone Marquer les documents importés avec la balise de crawler suivante. Cette balise sert à différencier les documents importés par ce crawler de ceux importés par un autre crawler.
Sous Configuration d'exécution, faites les réglages ci-dessous :
Nombre maximum de threads de recherche de documents - détermine le nombre maximum de threads simultanés servant à glaner du contenu dans la source de contenu.
Nombre maximum de threads d'indexation de cartes - détermine le nombre maximum de threads simultanés servant à traiter le contenu une fois qu'il a été importé dans le portail.
Les plages autorisées pour ces champs sont indiquées dans le fichier portalconfig.xml. Les valeurs définies dépendent également du nombre maximum de threads autorisés par le service d'automatisation utilisé pour cette opération d'analyse.
Marche à suivre pour afficher la page associée à cette rubrique d'aide :