要指定内容语言、对被拒绝文档执行的操作以及 crawler 标记:
在"内容语言"下面的下拉列表中,选择您要导入的大部分内容所使用的语言。
在"被拒绝的文档"下,指定对未成功归类到文件夹中的文档执行的操作:
要导入这些文档,请选择导入至未分类文档文件夹。
注:具有未分类文档访问权限的用户可以使用"未分类文档"文件夹。要访问未分类文档,请在"目录"菜单中单击编辑目录,并打开未分类文档文件夹。您还可以单击系统管理 | 选择实用程序 | 访问未分类文档。
要避免导入这些文档,请选择请勿导入。
如果是编辑现有的 crawler,您将看到"导入文档"部分。在"导入文档"下,指定是否仅导入新文档。默认情况下,此 crawler 将会尝试仅导入新文档(即此 crawler 或其它访问同一内容来源的 crawler 先前尚未导入的文档)。您可以更改 crawler 设定以导入每个文档的多个副本,这在测试 crawler 时很有用。
要仅导入新文档,请选择仅导入新链接,此时将会显示新选项;否则请跳至步骤 4。
要指定新链接的含义:
要仅导入此 Crawler 先前尚未导入的文档,请选择已由 Crawler 导入的文档。
要仅导入未从此 crawler 内容来源导入的文档(由此 crawler、其它 crawler 或用户手动导入),请选择由此内容来源导入的文档。
注:此处选择的选项会影响步骤 3f 和步骤 4 中的操作。
要根据文档设置页面中指定的设置刷新先前导入的文档,请选择刷新它们。通常,刷新文档是"文档刷新代理程序"的作业;刷新文档会降低 crawler 的速度。但是,如果更改了此 crawler 的文档设置或更改了所关联内容类型中的属性映射,则刷新文档将更新先前已导入文档的这些设置。
如果创建了其它文件夹或者对目的地文件夹应用不同过滤器,请选择尝试将它们归类至其它文件夹,以将先前导入的文档归类至新的知识目录文件夹。
其它 crawler 可能已从同一个数据源导入文档,但导入的目的地文件夹与此 crawler 所指定的不同。请确保您确实要将这些文档重新归类至此 crawler 所指定的目的地文件夹中。
要重新导入先前已删除(手动删除、由于过期或丢失来源文档而删除)的文档,请选择重新生成已删除的链接。这可能会重新导入曾被认为不适合门户网站的文档。
如果确有必要,您可以删除已从门户网站中删除的文档的记录。"历史记录"由您在步骤 3b 中指定的新文档标准而确定:
如果您选择"已由 Crawler 导入的文档",则历史记录将包括由此 crawler 导入并已删除的所有文档。
如果您选择"由此内容来源导入的文档",则历史记录将包括由此内容来源导入并已删除的所有文档。因此,您实质上是在删除从此内容来源导入文档的所有 crawler 的历史记录。
如果您仍确信必须删除已从门户网站中删除的文档的记录,请单击清除删除历史记录。
如果是编辑现有的 crawler,您将在"被拒绝的文档"下看到其它选项。在"被拒绝的文档"下,指定当此 crawler 找到先前被拒绝的文档时应执行的操作。"先前被拒绝"的定义也依赖于您在步骤 3b 中选择的选项:
如果您选择"已由 Crawler 导入的文档",则先前被拒绝的文档包括由此 crawler 导入而被拒绝的所有文档。
如果您选择"由此内容来源导入的文档",则先前被拒绝的文档包括由此数据源导入而被拒绝的所有文档。
要使此 crawler 导入先前被拒绝的文档,请选择重新导入。
要删除拒绝历史记录,请单击清除拒绝历史记录。请记住,如果您在步骤 3b 中选择了"由此数据源导入的文档",则您实质上是在删除从此内容来源导入文档的所有 crawler 的拒绝历史记录。
注:如果文档未归类到任何文件夹中,但已放入"未分类文档"文件夹中,则该文档不计为被拒绝的文档。被拒绝的文档是指未放入任何文件夹中的文档。
要使用 crawler 标签标记导入的文档,请在使用下列 Crawler 标签对导入的文档进行标记文本框中键入标签。此标签用于区分由此 crawler 导入的文档及由其它 crawler 导入的文档。
在"运行时配置"下,请作如下设置:
最大文档提取线程 - 确定用于同时从内容来源中提取内容的最大线程数。
最大资料卡索引编排线程 - 确定在将内容搜寻到门户网站之后,用于同时处理内容的最大线程数。
这些字段所允许的范围可在 portalconfig.xml 文件中设置。此处的设置值还会受到此 crawler 作业使用的 Automation Service 的最大允许线程的限制。
要显示与此帮助主题相关的页面: