Dieses Systemkonfigurationselement in der
instanzspezifischen Datei config/indexing.xml
legt die
Details der Indizierung von Inhalten durch den
Content Management Server und die Template Engine fest.
advancedSearch
: Konfiguriert die Indizierung
bei Verwendung der erweiterten Suche im Content Management Server. Das
Element hat die gleichen Untereinträge wie
incrementalExport
.
contentPreprocessors
: Das Element definiert
Präprozessoren, die aufgerufen werden, bevor Versionen indiziert
werden. Sollen keine Präprozessoren verwendet werden, muss
<contentPreprocessors />
angegeben werden.
Beispiel für je eine interne und externe Präprozessor-Definition:
<contentPreprocessors type=list> <preprocessor> <processor type="internal"/> <mimeTypes type="list"> <mimeType>application/vnd.ms-excel</mimeType> <mimeType>application/vnd.ms-powerpoint</mimeType> <mimeType>application/msword</mimeType> </mimeTypes> </preprocessor> <preprocessor> <processor type="external">bin/tclsh</processor> <processorArguments type="list"> <argument>pdfToTextWrapper.tcl</argument> </processorArguments> <mimeTypes type="list"> <mimeType>application/pdf</mimeType> </mimeTypes> </preprocessor> <preprocessor> <!-- Weiterer Prozessor für andere MIME-Typen --> </preprocessor> </contentPreprocessors>
Jeder Präprozessor ist für mindestens einen MIME-Typ zuständig. Wie
bei allen Listen hat das Element contentPreprocessors
das
obligatorische Attribut type="list"
. Der Inhalt des
Elements sind Unterelemente, die jeweils einen Präprozessor definieren.
Jedes preprocessor
-Unterelement hat wiederum die folgenden
Unterelemente:
mimeTypes
definiert die MIME-Typen der
Versionen, die von diesem Präprozessor bearbeitet werden
sollen.
Attribute: type
mit dem Wert
list
(obligatorisch).
Inhalt: Je MIME-Typ ein
mimeType
-Element, dessen Inhalt die jeweilige
Bezeichnung des MIME-Typs ist (beispielsweise
text/html
).
processor
definiert den Präprozessor
für Versionen, die einen der angegebenen MIME-Typen haben.
Attribute: type
mit einem der folgenden
Werte: internal
, external
,
ignore
, ignoreBlob
. Voreinstellung:
external
.
Inhalt, wenn type
den Wert
internal
hat: leer. Der Blob wird von der
Verity-Filter-Applikation konvertiert, bevor er indiziert
wird.
Inhalt, wenn type
den Wert
ignore
hat: leer. die Version wird nicht indiziert;
der Inhalt des Elements wird ignoriert.
Inhalt, wenn type
den Wert
ignoreBlob
hat: leer. Es werden alle Felder bis auf
den Hauptinhalt indiziert. Der Hauptinhalt wird nicht konvertiert
(normalerweise werden alle Feldwerte in reinen Text konvertiert,
bevor sie indiziert werden).
Inhalt, wenn type
den Wert
external
hat: Die zu indizierenden Daten werden
dem angegebenen Programm übergeben. Zusätzliche
Kommandozeilenargumente können ihm über das Element
processorArguments
übergeben werden. Weitere
Erläuterungen zum externen Präprozessor finden Sie in der
Dokumentation zum Search Server.
processorArguments
ist optional. Das
Element definiert die Argumente, die dem als processor
definierten Programm übergeben werden.
Attribute: type
mit dem Wert
list
(obligatorisch).
Inhalt: Je Kommandozeilenargument ein
argument
-Element, dessen Inhalt der zu
übergebende Wert ist.
Anmerkung: Bis Version 6.7.0 werden die
Prozessorargumente direkt im Inhalt des Elements erwartet
(Beispiel: <processorArguments>pdfToTextWrapper.tcl<processorArguments>
).
incrementalExport
: Konfiguriert die Indizierung
beim inkrementellen Export. Das Element hat die folgenden
Untereinträge:
isActive
: Schaltet die Indizierung
ein (true
) oder aus (false
).
collectionSelection
: Definiert
Regeln, nach denen eine Collection ausgewählt wird, um ein
Dokument zu indizieren. Beispiel:
<collectionSelection> <select collection="cm-contents"> <isEqual name="state" value="edited"/> </select> <select collection="cm-contents"> <isEqual name="state" value="released"/> </select> </collectionSelection>
Jedes select
-Element legt mit
collection
eine Collection fest, in die ein zu
indizierendes Dokument indiziert wird, wenn alle im Element
enthaltenen Regeln zutreffen. Die Regeln innerhalb eines
select
-Elements werden also und-verknüpft. Eine
Oder-Verknüpfung kann erreicht werden, indem mehrere
select
-Elemente mit der gleichen
collection
-Angabe verwendet werden. Ist das
collection
-Attribut nicht angegeben, wird das
Dokument nicht indiziert, wenn die Regeln zutreffen. Die Regeln
werden der Reihe nach abgearbeitet. Der erste zutreffende Satz
von Regeln bestimmt, in welche Collection das Dokument indiziert
wird, d. h. es ist nicht möglich, ein Dokument in mehr als eine
Collection zu indizieren. Es gibt folgende Regeln, die jeweils
durch Elemente repräsentiert werden und mit dem Tag-Attribut
negate="true"
umgekehrt werden können:
isEqual
: Die Regel trifft
zu, wenn der Wert des mit dem Tag-Attribut name
angegebenen Datei- oder Versionsfeldes mit der im
Tag-Attribut value
angegebenen Zeichenkette
exakt übereinstimmt. Beispiel:
<isEqual name="mimeType" value="application/x-shockwave-flash" />
isTrue
: Die Regel trifft
zu, wenn das mit dem Tag-Attribut name
angegebene Datei- oder Versionsfeld den Wert
true
, yes
oder 1
hat.
isFalse
: Die Regel trifft
zu, wenn das mit dem Tag-Attribut name
angegebene Datei- oder Versionsfeld den Wert
false
, no
oder 0
hat.
hasPrefix
: Die Regel trifft
zu, wenn der Wert des mit dem Tag-Attribut name
angegebenen Datei- oder Versionsfeldes mit der im
Tag-Attribut value
angegebenen Zeichenkette
beginnt. Beispiel:
<hasPrefix name="mimeType" value="application/" />
hasSuffix
: Die Regel trifft
zu, wenn der Wert des mit dem Tag-Attribut name
angegebenen Datei- oder Versionsfeldes auf die im
Tag-Attribut value
angegebene Zeichenkette
endet. Beispiel:
<hasSuffix name="mimeType" value="/zip" />
matches
: Die Regel trifft
zu, wenn der Wert des mit dem Tag-Attribut name
angegebenen Datei- oder Versionsfeldes eine Zeichenkette
enthält, die auf den im Tag-Attribut value
angegebenen regulären Ausdruck passt. Beispiel:
<matches name="collspec" value=".*live.*" />
staticExport
: Konfiguriert die Indizierung beim
statischen Export durch den Content Management Server. Das Element hat
die gleichen Untereinträge wie incrementalExport
.
vseLocale
: Legt die von der Verity Search
Cartridge zu verwendenden länderspezifischen Einstellungen fest.
Verfügbar sind uni
, germanx
und
englishx
(zusätzliche locales können erworben
werden). uni
ist universell (verwendet UTF-8 als
Zeichenkodierung), erlaubt jedoch keine sprachspezifischen
Suchanfragefunktionen wie die Wortstamm- und schreibungstolerante
Suche. Der eingestellte Wert gilt für alle Collections. Wird er
geändert, müssen alle Collections neu erzeugt werden.