Data Tools
Deterministische Scripts zur Datenpflege. Ohne AI-Token-Verbrauch ausfuehrbar.
01 Empfohlene Pipeline-Reihenfolge
Nach einem Crawler-Lauf sollten die Scripts in dieser Reihenfolge ausgefuehrt werden, um konsistente Daten zu garantieren.
Hinweis: Feed Merger (merge-feed.js) wird separat ausgefuehrt, wenn ein neuer HT Shopping Feed vorliegt. Nicht Teil des regulaeren Crawl-Zyklus.
02 Tools im Detail
Jedes Script erklaert: was es tut, welche Daten es liest/schreibt, wann man es ausfuehrt.
03 Hinweise
Alle Scripts sind deterministisch. Sie verbrauchen keine AI-Tokens und liefern bei gleichen Eingabedaten immer das gleiche Ergebnis. Koennen jederzeit sicher mehrfach ausgefuehrt werden.
NICHT deployen waehrend Crawls laufen. Docker-Rebuild killt laufende Crawl-Prozesse. Erst warten bis der Crawl fertig ist.
SQLite WAL-Modus: Daten landen erst in mcg.db-wal, nicht direkt in mcg.db. Bei Container-Restart ohne graceful shutdown gehen WAL-Daten verloren. Der Server hat SIGTERM-Handler eingebaut.