Armin Schmidt

February 15, 2007

Anlaufschwierigkeiten x 2

Filed under: german, university — Armin @ 5:57 pm

Nachdem die letzen paar Wochen mit gleich mehreren säähr guten Neuigkeiten aufwarteten, hat sich bei mir mittlerweile wieder eine kühle Nüchternheit eingestellt. Da ist zum einen die Bachelor-Arbeit, deren Thema “Statistical Machine Translation between New Language Pairs via Multiple Intermediaries” sein wird. Es geht grob gesagt darum, ein SMT-System zu implementieren, das vom Russischen ins Deutsche übersetzt und dies aufgrund der Knappheit von russisch-deutschen Parallelkorpora über zwei (später drei) intermediäre Sprachen tut. Letztere sind in meinem Fall Englisch und Spanisch. Die Prüfungsordnung sieht genau sechs Wochen für die komplette Arbeit vor und obwohl ich gerade erst begonne habe, liege ich schon wieder glatt hinter dem Zeitplan. Letzteren habe ich zack-zack durchstrukturiert:

  1. Notwendige Software installieren. Moses-Doku lesen: ~4 Tage
  2. Korpora aufbereiten & Phrasentabellen trainieren: 6-8 Tage
  3. Moses-Decoder an neue Funktionalität anpassen: ~10 Tage
  4. Evaluierung: ~1 Tag
  5. Schreiben der Arbeit: 10 Tage

Im Moment halte ich mich, das klang eventuell schon aus meinem letzten Eintrag raus, irgendwie immer noch an Punkt 1 auf, genauer gesagt am ersten Teil von Punkt 1. Während ich auf Antworten auf meine Support-Requests wartete, hatte mich sogar schonmal kurz daran versucht, mich in den Source-Code von Moses reinzulesen, musste aber schnell feststellen, dass ich eigentlich nicht so richtig weiß, wo anfangen. Ich muss halt eine bestimmte Stelle im Decoder ändern, zunächst muss ich diese Stelle aber erstmal finden! Klar, die Dokumentation könnte auch an vielen Stellen etwas ausführlicher sein, aber bei einem so großen Projekt stellt sich mir generell die Frage: Wie geht man an sowas eigentlich ran? (Bitte keine Scheu bei guten Ratschlägen!)

Die nächste Überaschung war, dass sich die Arbeit an Punkt 2 meines Plans auch verzögert, weil ich keinen Zugriff auf die mein Konto am DFKI mehr zu haben scheine. Dort liegen nämlich die UN-Parallelkorpora, die ich nutzen will. Zu dumm!

Zum Ausgleich durfte ich heute das germanistische Seminar in der schönen Heidelberger Altstadt besuchen, denn ich werde im nächsten Semester Germanistik studieren. Oder? Naja, es ist nämlich so: Um das Praktikum am XRCE durchführen zu dürfen, muss man Student, d.h. immatrikuliert, sein. Da ich noch in diesem Semester meinen Bachelor-Abschluss bekomme und mit dem Master erst im Oktober beginne, sei ich also in den dazwischen liegenden sechs Monaten kein Student, behauptet man. Der internationalen Bürokratie zuliebe renne ich nun von hier nach da, um Formulare unterschreiben zu lassen, die niemals in die Hände eines Menschen geraten werden, der tatsächlich weiß, wozu sie da und ob sie überhaupt nötig sind. Ich begreife erst jetzt, warum Bürokratie so behäbig ist (und ihren schlechten Ruf verdient) – weil aus Unwissenheit und falschem Respekt sich niemand traut, mal in die Hände zu spucken und zu tun, was, Verordnung hin Bestimmung her, einfach nur Sinn macht.

February 12, 2007

Packaging major NLP tools?

Filed under: nlp — Armin @ 10:59 pm

A colleague from university once claimed that good scientists often tend to be not so good programmers. There are a couple of things one could say in response, like that perhaps they don’t need to be, that there are in fact many people who are both, and that this tendency is just as true the other way round. After all, each of the two fields are broad and their mastery requires long and continuus occupation, so why not better stick to what you’re good at. One thing, though, puzzles me from time to time: there are a number of tools and packages that are used permanently for certain tasks in NLP, whose installation and sometimes usage is yet so inconvenient that I truly wonder why noone has ever made any effort of improving them.

Take, for instance, the SRI Language Modeling Toolkit – it is still under development but nevertheless widely used for building statistical language models and is required by several other projects, e.g. Moses. But try having it installed by someone without much experience in compiling C/C++ code, perhaps on a machine without administrative rights – [I'm cutting this rantish story for the sake of fairness]. A similar story could be told about many other tools that are widely used.

So I think what is needed is an nlp-repository that has ready-to-install packages in .deb (and perhaps .rpm) format for most of the major architectures. This could be integrated into something like debian-science but not necessarily so. There have been similar individual attempts within particular projects, e.g. with tools for machine translation, but they certainly lack the bigger framework and are restricted to few architectures only.

Is there any project like this? And if not, how, if at all, should one be started?

February 11, 2007

Everybody likes screenshots!

Filed under: nlp, technology — Armin @ 1:59 pm

Nothing grand, I suppose, but I embellished the project page of our little kwic-finder The Phrasehunter and added a couple of screenshots. I hope I’ll find some time in the near future to actually do some code work on it, too.

February 10, 2007

Machine Translation Marathon in Edinburgh

Filed under: nlp — Armin @ 5:57 pm

I hope I’m not spelling other people’s beans but it looks like there is going to be a kind of a spring school for students on (statistical) machine translation, organized by Philipp Koehn at the University of Edinburgh in April within the framework of the EuroMatrix project. It will probably include several lectures as well as hands-on lab sessions and open source development workshops. Andreas Eisele from DFKI asked me and some other people if we would be interested and, well – how I would! It looks like the perfect round-up for the work on my BA thesis and perhaps there might even be something in it for my internship at XRCE. There are three problems, though: the date of the event has not been set, yet, but it might fall into the second part of April which is when K. and I will already watch the Alps from the French side. Another thing is that I simply don’t have any money to afford such a trip at the moment. And last but perhaps most importantly is the fact that, by then at the latest, I expect a short break will do me well.

February 6, 2007

Stille

Filed under: german, university — Armin @ 11:20 pm

Stille. Zwei Wochen lang klickte ich mich durch verständliche und unverständliche PDF-Dateien, beschrieb wohl an die sechzig Seiten mit Fragen und Antworten, Sichworten, Formeln, Diagrammen und Matrizen, Strukturbäumen und Aufbauschemata. Ich zermarterte mir das Hirn über unklare Herleitungen, hatte über Tage hinweg Kopfschmerzen und Magenbeschwerden. Für eine halbe Stunde entspannten Gesprächs mit zwei freundlichen Damen.

Heute morgen schlief ich lang und frühstückte spät und reichlich. Ich duschte in Ruhe und rasierte mich ausführlich. Dann bereitete ich einen Aufguss eines der intensivsten hierzulande erhältlichen Grüntees, einem Geschenk von K., setzte mich auf’s Sofa und aß ein Stück hochprozentiger Schokolade. Die pointierten Noten des Angel Song schufen eine Atmosphäre entspannter Konzentration. Ich überflog meine Notizen ein letztes Mal und trank aus.

Die Prüfung verlief ohne Zwischenfälle, das Ergebnis war sehr gut.

Was bedeutete diese halbe Stunde? Das Resumée von dreieinhalb Jahren Studiums. Kein Abfragen fachlichen Wissens, sondern Examination persönlicher Fähigkeiten. Nach ihr ein Plateau, dessen Existenz man immer sicher, das aber immer zu weit weg war, als dass man es hätte tatsächlich begreifen können. Ich sehe diese Zahl vor mir, meine Note, und weiß, sie hätte besser kaum sein können. Sie sagt mir nichts.

Blog at WordPress.com.