So legen Sie die Sprache des Inhalts, die Vorgehensweise für abgelehnte Dokumente sowie den Crawler-Tag fest:
Wählen Sie unter „Sprache des Inhalts“ in der Dropdown-Liste die Sprache aus, in der der Großteil des zu importierenden Inhalts verfasst ist.
Geben Sie unter „Abgelehnte Dokumente“ an, wie mit Dokumenten verfahren werden soll, die nicht erfolgreich in einen Ordner einsortiert werden konnten:
Wählen Sie Im
Ordner „Nicht klassifizierte Dokumente“ ablegen aus, um diese Dokumente
trotzdem zu importieren.
Hinweis: Der Ordner „Nicht klassifizierte Dokumente“ steht
Benutzern zur Verfügung, die auf
nicht klassifizierte Dokumente zugreifen können. Wenn Sie auf nicht
klassifizierte Dokumente zugreifen möchten, klicken Sie im Menü „Verzeichnis“
auf Verzeichnis bearbeiten und
öffnen Sie den Ordner Nicht klassifizierte
Dokumente. Sie können auch auf Administration
| Dienstprogramm auswählen
| Auf nicht klassifizierte Dokumente
zugreifen klicken.
Wählen Sie Nicht importieren aus, um diese Dokumente nicht zu importieren.
Wenn Sie einen vorhandenen Crawler bearbeiten, wird der Bereich „Dokumente werden importiert“ angezeigt. Legen Sie unter „Dokumente werden importiert“ fest, ob nur neue Dokumente importiert werden sollen. Standardmäßig importiert dieser Crawler nur neue Dokumente (die noch nicht durch diesen Crawler oder andere Crawler, die auf die gleiche Inhaltsquelle zugreifen, importiert wurden). Sie können die Crawler-Einstellungen ändern, sodass mehrere Exemplare jedes Dokuments importiert werden. Dies kann beim Testen der Crawler nützlich sein.
Damit nur neue Dokumente importiert werden, wählen Sie Nur neue Links importieren aus. Daraufhin werden weitere Optionen angezeigt. Andernfalls fahren Sie mit Schritt 4 fort.
So legen Sie fest, was als neuer Link definiert wird:
Wenn nur Dokumente importiert werden sollen, die noch nicht von diesem Crawler importiert wurden, aktivieren Sie Von diesem Crawler.
Sollen nur Dokumente importiert werden, die noch nicht aus dieser Inhaltsquelle (entweder von diesem oder einem anderen Crawler oder manuell durch einen Benutzer) importiert wurden, wählen Sie Von dieser Inhaltsquelle.
Hinweis: Die hier ausgewählte Option wirkt sich auch auf die Aktionen in Schritt 3f und Schritt 4 aus.
Wählen Sie Option Die Dokumente aktualisieren, um die anhand der Einstellungen auf der Seite Dokumenteinstellungen importierten Dokumente zu aktualisieren. Im Allgemeinen ist das Aktualisieren von Dokumenten die Aufgabe des Dokumentenaktualisierungs-Agenten. Durch das Aktualisieren wird der Crawler verlangsamt. Wenn Sie jedoch die Dokumenteinstellungen für diesen Crawler oder die Eigenschaftszuordnungen in den zugeordneten Inhaltstypen geändert haben, werden diese Einstellungen durch das Aktualisieren auch für die vorher importierten Dokumente übernommen.
Falls Sie zusätzliche Ordner erstellt oder
unterschiedliche Filter auf die Zielordner angewendet haben, wählen Sie
die Dokumente in zusätzliche Ordner einordnen.
Dadurch werden die bereits importierten Dokumente in neue Wissensverzeichnis-Ordner
einsortiert.
Möglicherweise hat ein anderer Crawler bereits Dokumente aus derselben
Datenquelle importiert, dabei jedoch andere Ordner als die für diesen
Crawler angegebenen Zielordner verwendet. Vergewissern Sie sich, ob Sie
diese Dokumente wirklich in die für diesen Crawler festgelegten Zielordner
umsortieren möchten.
Sollen Dokumente neu importiert werden, die vorher gelöscht wurden (manuell, durch Ablauf der Gültigkeit oder wegen fehlender Quelldokumente), wählen Sie Gelöschte Links wiederherstellen. Dadurch werden u. U. Dokumente erneut importiert, die zu einem anderen Zeitpunkt als ungeeignet für das Portal eingestuft wurden.
Falls es unbedingt notwendig ist, können Sie den Datensatz von Dokumenten löschen, die aus dem Portal entfernt wurden. „Verlauf“ wird durch die Einstellungen festgelegt, die Sie für neue Dokumente in Schritt 3b vorgenommen haben:
Wenn Sie „Von diesem Crawler“ ausgewählt haben, enthält der Verlauf alle Dokumente, die von diesem Crawler importiert und dann gelöscht wurden.
Wenn Sie „Von dieser Inhaltsquelle“ ausgewählt haben, enthält der Verlauf alle Dokumente, die aus dieser Inhaltsquelle importiert und dann gelöscht wurden. Sie löschen also damit den Verlauf für alle Crawler, die Dokumente aus dieser Inhaltsquelle importieren.
Wenn Sie immer noch davon überzeugt sind, dass Sie die Datensätze der aus dem Portal gelöschten Dokumente wirklich löschen müssen, klicken Sie auf Löschverlauf löschen.
Wenn Sie einen vorhandenen Crawler bearbeiten, werden weitere Optionen unter „Abgelehnte Dokumente“ angezeigt. Legen Sie unter „Abgelehnte Dokumente“ die Vorgehensweise für den Crawler fest, wenn er auf ein bereits abgelehntes Dokument stößt. Die Definition von „bereits abgelehnt“ hängt wiederum von der in Schritt 3b ausgewählten Option ab:
Wenn Sie „Von diesem Crawler“ ausgewählt haben, gehören zu den abgelehnten Dokumenten alle Dokumente, die von diesem Crawler abgelehnt wurden.
Wenn Sie „Von dieser Inhaltsquelle“ ausgewählt haben, gehören zu den abgelehnten Dokumenten alle Dokumente, die aus dieser Datenquelle stammen und abgelehnt wurden.
Soll der Crawler versuchen, bereits abgelehnte Dokumente zu importieren, wählen Sie die Option Erneut importieren.
Klicken Sie auf Den Ablehnungsverlauf löschen, um den Ablehnungsverlauf zu löschen. Wenn Sie in Schritt 3b „Aus dieser Datenquelle“ festgelegt haben, löschen Sie damit den Ablehnungsverlauf für alle Crawler, die Dokumente aus dieser Inhaltsquelle importieren.
Hinweis: Wenn sich ein Dokument nicht einsortieren lässt, wird es im Ordner „Nicht klassifizierte Dokumente“ abgelegt. Das bedeutet jedoch nicht, dass das Dokument abgelehnt wurde. Abgelehnte Dokumente sind Dokumente, die in keinem Ordner abgelegt wurden.
Wenn Sie importierte Dokumente mit einem Crawler-Tag kennzeichnen möchten, geben Sie einen Tag in das Feld Importierte Dokumente mit dem folgenden Crawler-Tag markieren ein. Dieser Tag dient zur Unterscheidung der Dokumente, die durch diesen Crawler importiert wurden, von den Dokumenten, die durch andere Crawler importiert wurden.
Stellen Sie unter „Laufzeitkonfiguration“ Folgendes ein:
Maximale Anzahl an Dokumenten-Download-Threads: Hiermit wird die maximale Anzahl der Threads festgelegt, die gleichzeitig aus der Inhaltsquelle Inhalt herunterladen können.
Maximale Anzahl an Kartenindexierungsthreads: Hiermit wird die maximale Anzahl der Threads festgelegt, die gleichzeitig Inhalt nach dem Laden ins Portal verarbeiten können.
Die zulässigen Bereiche für diese Felder werden in der Datei „portalconfig.xml“ festgelegt. Die hier eingestellten Werte werden auch durch die maximale Anzahl der Threads begrenzt, die im für diesen Crawler-Auftrag verwendeten Automation Service zulässig sind.
So zeigen Sie die Seite an, auf die sich dieses Hilfethema bezieht: