Mehr Infos zu den Kommandozeilen-Optionen befinden sich auf der
entsprechenden Dokuseite ↗↗
von MarkLogic.
4.3.5.2 mlcp - MarkLogic Content Pump
Die Content Pump für MarkLogic ist ein Java Tool, das den Bulk-Import von Daten über die Kommadozeile realisiert.
Das betreffende GitHub Projekt befindet sich hier ↗↗.
Zur einfachen Installation kann man sich aber auch die Binaries auf den
Developer Seiten ↗↗ herunterladen.
Folgendes Bash Skript benutze ich, um Daten nach MarkLogic hochzuladen:
#!/bin/bash
set -eo pipefail
mlcp_opts="-database alex-test -host localhost -username admin -password admin"
mlcp import $mlcp_opts \
-input_file_path input-files \
-input_file_type aggregates \
-aggregate_record_element chapter \
-output_collections /chapter \
-output_uri_prefix /chapter/ \
-output_uri_suffix .xml
Dabei werden alle Dateien im Ordner
input-files
importiert. Der Dateityp
der hochzuladenen Daten ist mit
aggregates
angegeben. Das sind XML Daten.
Hinweis
NOTIZ
Mit der Option
-aggregate_record_element
wird definiert, dass die Eingabe bzgl. des Elements
<chapter>
aufgesplittet werden soll.
D.h. eine Datei mit folgendem Inhalt:
<test> <title>Test Datei</title> <chapter> <title>Test Kapitel 1</title> <content>Kapitel Inhalt 1</content> </chapter> <chapter> <title>Test Kapitel 2</title> <content>Kapitel Inhalt 2</content> </chapter> <chapter> <title>Test Kapitel 2</title> <content>Kapitel Inhalt 2</content> </chapter> </test>
wird in drei Records aufgesplittet:
Auf der Konsole kann man sich das Ergebnis der
mlcp
Sitzung anschauen. Es wurden - wie gewünscht - drei XML Fragmente separat in die Collection gespeichert.

Bild: 20 Ergebnis einer MarkLogic Content Pump Sitzung
Hinweis
NOTIZ
Um in MarkLogic keine Speicherpobleme zu erzeugen empfielt es sich große Dokumente, die man nur "speichern" will mit der Option
-document_type binary
zu importieren. In diesem Zusammenhang ist ebenfalls die Option
-streaming true
interessant.
Ein weiterer wichtiger Punkt, der mir bei der Arbeit mit
mlcp
aufgefallen ist:
WARNUNG!
Kommt es zu Inkonsistenzen in der Datenhaltung, mag das daran liegen, dass in verschiedenen
mlcp
Sitzungen von der gleichen Datei (gleicher Dateiname im Filesystem) importiert wurde.
Es ist darauf zu achten, dass die Dateinamen eindeutig sind. Das kann zum Beispiel durch die Vergabe einer eindeutige ID im
Dateinamen geschehen. Auf der Dokuseite zu den
mlcp
Optionen steht dazu folgendes:
"If your aggregate URI id's are not unique, you can overwrite one document in your input set with another. Importing documents
with non-unique URI id's from multiple threads can also cause deadlocks."
"The generated URIs are unique across a single import operation, but they are not globally unique. For example, if you repeatedly
import data from some file /tmp/data.csv, the generated URIs will be the same each time (modulo differences in the number
of documents inserted by the job)"