Impostazioni avanzate (Crawler di contenuto)

Per specificare la lingua del contenuto, le operazioni da eseguire con i documenti rifiutati e una tag del crawler di contenuto, effettuare le operazioni riportate di seguito.

  1. Nell'elenco a discesa disponibile in Lingua contenuto scegliere la lingua in cui è scritta la maggior parte del contenuto che si desidera importare.

  2. In Documenti rifiutati specificare come gestire i documenti non ordinati correttamente all'interno di una cartella.

  3. In caso di un crawler di contenuto esistente, saranno disponibili opzioni aggiuntive in Documenti rifiutati. Tali opzioni consentono di specificare le operazioni da eseguire quando il crawler di contenuto trova un documento precedentemente rifiutato. La definizione di "documento precedentemente rifiutato" dipende dall'opzione selezionata al passo 4b.

  4. Specificare come gestire i documenti precedentemente rifiutati.

    Se è assolutamente necessario, è possibile eliminare la cronologia dei documenti rifiutati in precedenza. La definizione "rifiutato in precedenza" dipende dall'opzione scelta nel passo 4b: se è stata scelta "da questa origine dati" nel passo 4b, verrà eliminata la cronologia dei rifiuti di tutti i crawler di contenuto che importano documenti dall'origine contenuto specificata. Se si è certi di dover eliminare la cronologia dei documenti eliminati dal portale, fare clic su Cancella cronologia rifiuti.

    Nota: se un documento non viene ordinato in alcuna cartella, ma viene posizionato nella cartella Documenti non classificati, tale documento non deve considerarsi rifiutato. I documenti rifiutati sono quelli non posizionati in alcuna cartella.

  5. In caso di modifica di un crawler di contenuto esistente, verrà visualizzata la sezione Importazione documenti in corso. In Importazione documenti in corso specificare se importare solo i nuovi documenti. Per impostazione predefinita, questo crawler di contenuto tenta di importare solo i nuovi documenti, ovvero quelli che non sono stati importati in precedenza da questo o da altri crawler di contenuto che accedono alla stessa origine contenuto. È possibile modificare le impostazioni del crawler di contenuto e consentirgli di importare più copie di ciascun documento. Ciò risulta utile quando vengono eseguiti test sui crawler di contenuto.

    1. Per importare solo nuovi documenti, selezionare Importa solo nuovi collegamenti. Verranno visualizzate nuove opzioni. In caso contrario, eseguire il passo 5.

    2. Per specificare il significato dei nuovi collegamenti, effettuare le operazioni riportate di seguito.

    3. Nota: l'opzione scelta interessa tutte le azioni eseguite nei passaggi 3 e 4f.

    4. Per aggiornare i documenti precedentemente importati come specificato nella pagina Impostazioni documento, selezionare aggiornarli. In genere, aggiornare i documenti è il job eseguito dall'Agente di aggiornamento documento. L'aggiornamento dei documenti rallenta il crawler di contenuto. Tuttavia, se le impostazioni del documento sono state modificate per il crawler di contenuto corrente o se sono state modificati i mapping delle proprietà nei tipi di documento associati, l'aggiornamento dei documenti comporta l'aggiornamento anche delle impostazioni dei documenti importati in precedenza.

      Nota:
      in caso di crawling di un feed RSS, l'opzione aggiornarli consente di aggiornare le proprietà, ad esempio il titolo e la descrizione, aggiungendo i valori dei documenti di destinazione e non il feed RSS. Se si desidera conservare le proprietà del feed RSS, non selezionare aggiornarli.

    5. Se sono state create altre cartelle o se sono stati applicati filtri diversi alle cartelle di destinazione, selezionare cercare di ordinarli in cartelle aggiuntive per ordinare i documenti precedentemente importati nelle nuove cartelle della Knowledge Directory.

      Un altro crawler di contenuto potrebbe aver importato documenti dalla stessa origine dati, ma in cartelle diverse da quelle di destinazione specificate per il crawler di contenuto corrente. Confermare che si desidera effettivamente riordinare i documenti nelle cartelle di destinazione specificate per il crawler di contenuto corrente.

    6. Per reimportare i documenti precedentemente eliminati (manualmente perché scaduti o perché mancano i relativi documenti di origine), selezionare rigenerare i collegamenti eliminati. Queste azioni potrebbero reimportare documenti un tempo ritenuti inappropriati per il portale.

    7. In caso di assoluta necessità, è possibile eliminare le cronologie dei documenti eliminati dal portale. La "cronologia" è definita dai nuovi documenti impostati al passo 3b.

    8. Se si è certi di dover eliminare il record dei documenti eliminati dal portale, fare clic su Cancella cronologia eliminazioni.

  6. Per contrassegnare i documenti importati con una tag del crawler di contenuto, digitare la tag nella casella Contrassegna i documenti importati con la seguente tag di crawler di contenuto. Questa tag consente di differenziare i documenti importati dal crawler di contenuto corrente da quelli importati da un altro crawler di contenuto.

  7. In Configurazione runtime effettuare le operazioni riportate di seguito.

  8. Gli intervalli consentiti per questi campi sono impostati nel file di configurazione del portale. Il valori impostati in questo passo sono inoltre limitati dal numero massimo di thread consentiti nel servizio di automazione utilizzato per il job associato al crawler di contenuto.


  1. Fare clic su Amministrazione.
  2. Aprire l'editor crawler di contenuto.
  3. A sinistra, in Modifica impostazioni oggetto fare clic su Impostazioni avanzate.