Nachdem die letzen paar Wochen mit gleich mehreren säähr guten Neuigkeiten aufwarteten, hat sich bei mir mittlerweile wieder eine kühle Nüchternheit eingestellt. Da ist zum einen die Bachelor-Arbeit, deren Thema “Statistical Machine Translation between New Language Pairs via Multiple Intermediaries” sein wird. Es geht grob gesagt darum, ein SMT-System zu implementieren, das vom Russischen ins Deutsche übersetzt und dies aufgrund der Knappheit von russisch-deutschen Parallelkorpora über zwei (später drei) intermediäre Sprachen tut. Letztere sind in meinem Fall Englisch und Spanisch. Die Prüfungsordnung sieht genau sechs Wochen für die komplette Arbeit vor und obwohl ich gerade erst begonne habe, liege ich schon wieder glatt hinter dem Zeitplan. Letzteren habe ich zack-zack durchstrukturiert:
- Notwendige Software installieren. Moses-Doku lesen: ~4 Tage
- Korpora aufbereiten & Phrasentabellen trainieren: 6-8 Tage
- Moses-Decoder an neue Funktionalität anpassen: ~10 Tage
- Evaluierung: ~1 Tag
- Schreiben der Arbeit: 10 Tage
Im Moment halte ich mich, das klang eventuell schon aus meinem letzten Eintrag raus, irgendwie immer noch an Punkt 1 auf, genauer gesagt am ersten Teil von Punkt 1. Während ich auf Antworten auf meine Support-Requests wartete, hatte mich sogar schonmal kurz daran versucht, mich in den Source-Code von Moses reinzulesen, musste aber schnell feststellen, dass ich eigentlich nicht so richtig weiß, wo anfangen. Ich muss halt eine bestimmte Stelle im Decoder ändern, zunächst muss ich diese Stelle aber erstmal finden! Klar, die Dokumentation könnte auch an vielen Stellen etwas ausführlicher sein, aber bei einem so großen Projekt stellt sich mir generell die Frage: Wie geht man an sowas eigentlich ran? (Bitte keine Scheu bei guten Ratschlägen!)
Die nächste Überaschung war, dass sich die Arbeit an Punkt 2 meines Plans auch verzögert, weil ich keinen Zugriff auf die mein Konto am DFKI mehr zu haben scheine. Dort liegen nämlich die UN-Parallelkorpora, die ich nutzen will. Zu dumm!
Zum Ausgleich durfte ich heute das germanistische Seminar in der schönen Heidelberger Altstadt besuchen, denn ich werde im nächsten Semester Germanistik studieren. Oder? Naja, es ist nämlich so: Um das Praktikum am XRCE durchführen zu dürfen, muss man Student, d.h. immatrikuliert, sein. Da ich noch in diesem Semester meinen Bachelor-Abschluss bekomme und mit dem Master erst im Oktober beginne, sei ich also in den dazwischen liegenden sechs Monaten kein Student, behauptet man. Der internationalen Bürokratie zuliebe renne ich nun von hier nach da, um Formulare unterschreiben zu lassen, die niemals in die Hände eines Menschen geraten werden, der tatsächlich weiß, wozu sie da und ob sie überhaupt nötig sind. Ich begreife erst jetzt, warum Bürokratie so behäbig ist (und ihren schlechten Ruf verdient) – weil aus Unwissenheit und falschem Respekt sich niemand traut, mal in die Hände zu spucken und zu tun, was, Verordnung hin Bestimmung her, einfach nur Sinn macht.