Da ich kürzlich ein Hostingpaket eines Kunden von einem Hoster zum nächsten umziehen sollte, stellte sich das Problem der Postfach-Migration.
Da der Kunde alle E-Mails per IMAP abruft, waren alle Mails auf den Servern des Alt-Hosters gespeichert. Es handelte sich um eine hohe zweistellige Anzahl an Postfächern, von denen viele eine fünfstellige Anzahl an E-Mails beherbergten und Größen im zweistelligen GB-Bereich erreichten.
Früher hätte man das mit IMAPSize relativ einfach erledigen können, aber seit SSL üblich ist, funktioniert IMAPSize halt meist nicht mehr; so auch in diesem Fall. Thunderbird & Co. strecken bei solchen Postfächern ebenfalls meist die Hufe.
Eine Suche nach “IMAP Mail Migration / Umzug” brachte als brauchbare Lösung nur Mailstore Server zu Tage. Allerdings bei dieser Anzahl an Postfächern auch nicht direkt zu einem kleinen Kurs für einen kleineren Gewerbetreibenden.
Nun gut, dann halt per Script. Da gibt es ja bestimmt etwas brauchbares. In Perl gibt es tatsächlich etwas, aber Perl gehört nicht zu meinen üblichen Spielwiesen. Und es gibt auch etwas in PHP. Allerdings war das relativ grob zusammengeschustert und tat nur ansatzweise, was es sollte. Also blieb nur, die Anregungen aus den vorhandenen Scripten aufzunehmen und selbst etwas zu bauen.
Aufgrund der Größe der Postfächer war klar, dass es mit den begrenzten Scriptlaufzeiten auf dem Webserver sicherlich keinen Erfolg geben wird. Also muss man auf die Shell ausweichen.
Ohne zu sehr ins Detail gehen zu wollen, ergaben sich dabei ein paar interessante Probleme:
1. Die Message-IDs innerhalb einer Mailbox (nicht innerhalb des Postfachs) waren nicht eineindeutig, obwohl das so sein sollte.
Warum das wichtig ist, wenn man die Mails doch nur von einem Postfach ins andere Schaufeln möchte? Nun, der Umzug eines Hostingpakets hängt zeitlich von vielen Faktoren ab. Aufgrund der Größe der Postfächer wurden die Postfächer schon im Vorfeld kopiert. Anschließend sollten nur noch inkrementelle Updates gefahren werden.
Um inkrementelle Updates zu realisieren, muss man die E-Mails im alten und neuen Postfach jedoch eindeutig identifizieren können.
Na dann halt eine Kombination aus Message-ID und Zeitstempel im Header der E-Mail. Lustig, denn damit kommen wir zum zweiten Problem:
2. Nicht jede E-Mail hat einen Zeitstempel (Eigenschaft “Date / date” im Header).
Also war eine eindeutige Identifizierung über eine Kombination aus Message-ID und Zeitstempel auch nicht ohne weiteres möglich.
Glücklicherweise verhalten sich die Mail-Server verlässlicher als die absendenden Mail-Clients und -Generatoren. Sie legen tatsächlich im Header jeweils einen “Received”-Eintrag an. Leider geben die PHP-IMAP-Funktionen genau diesen Wert (bzw. diese Werte, da es mehrere Received-Einträge im Header gaben kann) nicht zurück. Es bleibt also nur der Weg, den Header selbst zu zerlegen und den letzten Received-Zeitpunkt zu extrahieren.
Nun kann man anhand der Message-ID und des Zeitstempels alle Mails im Ursprungs- und Ziel-Postfach eindeutig identifizieren und verhindern, dass E-Mails mehrfach übertragen werden.
Zumindest bei E-Mails, die keinen Date-Eintrag im Header haben, sollte man dann beim Aufruf von “imap_append” den Zeitstempel mit übergeben. Interessanter Weise wird im RFC 3501 immer auf RFC 2822 verwiesen. Im Header sind alle Datumswerte auch ganz offensichtlich gemäß der PHP-Konstante DATE_RFC2822 formatiert. Wenn man nun versucht, imap_append mit einem Zeitstempel gemäß RFC 2822 zu füttern, bekommt man die höfliche Notiz, dass diese Angabe ungültig ist. Auch ein reiner Unix-Zeitstempel führt nicht zum Erfolg.
Stattdess muss es ein String gemäß dem Muster date( "d-M-Y H:i:s O", #Unix-Zeitstempel# );
sein. Falls das irgendwo brauchbar dokumentiert ist, war ich jedenfalls nicht in der Lage, es zu finden.
3. Ein weiterer Spaß ist die Kodierung und Struktur der Mailboxnamen (für gewöhnlich als Ordner wahrgenommen). Gemäß RFC 3501 wird eine spezielle Version von UTF-7 für die Kodierung verwendet. Das ist immer dann von Bedeutung, wenn auf dem Quellserver Umlaute für die Mailboxen verwendet werden. Im deutschsprachigen Raum ist das relativ häufig der Fall, da oftmals für die Standard-Mailbox “Drafts” das deutsche “Entwürfe” verwendet wird.
Auch der Delimiter (Hierarchie-Trenner) verdient Beachtung. Während bei der Anlage neuer Mailboxen grundsätzlicher der Slash “/” als Trenner verwendet werden kann, gilt dies auf dem Quellserver für den lesenden Zugriff nicht. Hier heißt es unbedingt mit “imap_getmailboxes” die Mailboxen abzufragen, wobei die Eigenschaft “delimiter” mit übergeben wird, welche man dann zwingend als Trenner auf dem Quellserver verwenden muss.
4. Die Funktion “imap_rfc822_parse_headers” schmiert sehr elegant mit einem “Fatal error” ab, wenn der Header einer E-Mail die Größe von 16 KB übersteigt. Üblicherweise sind Header eher um die 4 KB groß, aber ganz gelegentlich gibt es halt mal Ausreißer. Da hilft nur, den zu übergebenden Header abzuschneiden…
Nachdem alle diese Fallstricke umgangen waren, stand einer erfolgreichen Mail-Migration nichts mehr im Weg. ABER!
Tatsächlich war bei einigen E-Mails der Aufruf von imap_append nicht erfolgreich. Es gab die freundliche Warnung “Can’t save a zero byte message (0.001 + 0.000 secs)”. Zu Analysezwecken habe ich diese Mails dann in EML-Dateien geschrieben und näher angeschaut. Es handelte sich bei diesen E-Mails ausschließlich um Spam-Mails, die nicht wohlgeformt waren.
Damit der Kunde die Diskrepanz zwischen Quell- und Zielpostfach versteht, ließ ich also ein Logfile mitlaufen und exportierte nicht migrierbare in EML-Dateien, um diese zu übergeben.