4.3.5.2  mlcp - MarkLogic Content Pump

Die Content Pump für MarkLogic ist ein Java Tool, das den Bulk-Import von Daten über die Kommadozeile realisiert.
Das betreffende GitHub Projekt befindet sich hier ↗↗.
Zur einfachen Installation kann man sich aber auch die Binaries auf den
Developer Seiten ↗↗ herunterladen.
Folgendes Bash Skript benutze ich, um Daten nach MarkLogic hochzuladen:
#!/bin/bash

set -eo pipefail

mlcp_opts="-database alex-test -host localhost -username admin -password admin"

mlcp import $mlcp_opts \
     -input_file_path input-files \
     -input_file_type aggregates \
     -aggregate_record_element chapter \
     -output_collections /chapter \
     -output_uri_prefix /chapter/ \
     -output_uri_suffix .xml
Dabei werden alle Dateien im Ordner input-files importiert. Der Dateityp der hochzuladenen Daten ist mit aggregates angegeben. Das sind XML Daten.
Hinweis
NOTIZ
Mehr Infos zu den Kommandozeilen-Optionen befinden sich auf der entsprechenden Dokuseite ↗↗ von MarkLogic.
Mit der Option -aggregate_record_element wird definiert, dass die Eingabe bzgl. des Elements <chapter> aufgesplittet werden soll. D.h. eine Datei mit folgendem Inhalt:
<test>
  <title>Test Datei</title>
  <chapter>
    <title>Test Kapitel 1</title>
    <content>Kapitel Inhalt 1</content>
  </chapter>
  <chapter>
    <title>Test Kapitel 2</title>
    <content>Kapitel Inhalt 2</content>
  </chapter>
  <chapter>
    <title>Test Kapitel 2</title>
    <content>Kapitel Inhalt 2</content>
  </chapter>
</test>
wird in drei Records aufgesplittet:
Auf der Konsole kann man sich das Ergebnis der mlcp Sitzung anschauen. Es wurden - wie gewünscht - drei XML Fragmente separat in die Collection gespeichert.

Bild: 20  Ergebnis einer MarkLogic Content Pump Sitzung
Hinweis
NOTIZ
Um in MarkLogic keine Speicherpobleme zu erzeugen empfielt es sich große Dokumente, die man nur "speichern" will mit der Option -document_type binary zu importieren. In diesem Zusammenhang ist ebenfalls die Option -streaming true interessant.
Ein weiterer wichtiger Punkt, der mir bei der Arbeit mit mlcp aufgefallen ist:
WARNUNG!
Kommt es zu Inkonsistenzen in der Datenhaltung, mag das daran liegen, dass in verschiedenen mlcp Sitzungen von der gleichen Datei (gleicher Dateiname im Filesystem) importiert wurde.
Es ist darauf zu achten, dass die Dateinamen eindeutig sind. Das kann zum Beispiel durch die Vergabe einer eindeutige ID im Dateinamen geschehen. Auf der Dokuseite zu den mlcp Optionen steht dazu folgendes:
"If your aggregate URI id's are not unique, you can overwrite one document in your input set with another. Importing documents with non-unique URI id's from multiple threads can also cause deadlocks."
"The generated URIs are unique across a single import operation, but they are not globally unique. For example, if you repeatedly import data from some file /tmp/data.csv, the generated URIs will be the same each time (modulo differences in the number of documents inserted by the job)"
Previous Page Next Page
Version: 92
Dec 26 2020