Ihr Browser ist veraltet. Bitte aktualiseren Sie auf Edge, Chrome, Firefox.
N°3/2025
i

Smells Like AI Spirit

Als Nichtmusikerin habe ich Songs kreiert:
Bericht über einen KI-Selbstversuch einer Literaturstudentin

Text

Studentin Schweizerisches Literaturinstitut

Vor etwa zwanzig Jahren hielt die Musikschule in meinem Dorf zum Schulstart einen Tag der offenen Tür ab. In den Gängen und Fluren reihten sich die Instrumente und die dazugehörigen Lehrpersonen wie Dominosteine aneinander. Es wurde gezupft, getrommelt, geklimpert. Es wurden Elternträume geboren, Weichen gestellt und Kinderträume begraben. So auch meiner. Statt mit einer Akustikgitarre auf dem Rücken die Schule zu verlassen, kehrte ich mit einer Einschreibung für den Geigenunterricht bei Frau Fotsch heim. Die Begründung: Die Gitarre sei zu gross, meine Arme zu kurz. Und Ukulele spielen wollte ich nicht. Zehn Jahre, fünf Geigen und eine Orchesterprobe später hörte ich auf. Ich brachte meine Geige dem Verleiher zurück wie jemand, der seine Wettschulden abgestottert hatte. Nochmals zehn Jahre und das alles spielt keine Rolle mehr. Ich sitze in meinem Zimmer, Rechner auf den Knien und höre einem Musikschnipsel mit Klavier- und Geigenklängen zu. Neunundzwanzig Sekunden. So lange dauert die Melodie, die ich vor einigen Tagen mit ein paar Mausklicks, vier Stichworten und dem KI-Musikgenerator Udio produziert habe. Aber fehlt nicht was?

Da capo – auf Anfang
Donnerstagmorgen, erster Versuchstag. Auf einen Post-it-Zettel kritzle ich die Kriterien des Experiments. Dauer: drei Tage. Ziel: einen Song komponieren. Regeln: keine Tutorials, keine Theoriekunde, keine finanziellen Ausgaben. Udio ist eine der führenden Plattformen, wenn es ums Erstellen von generativer Musik geht. Ihr Zielpublikum: Musiker*innen, «Grammy-prämierte Produzenten» 1 sowie Amateur*innen. Zu Letzteren zähle ich mich, denn von zehn Jahren Geigenspiel ist bloss das Wissen um die Wichtigkeit von kurz geschnittenen Fingernägeln geblieben.
Die Homepage angewählt, bleibt der Blick an einer neonpinken Frequenzwelle mit dem Button «Start Creating» haften. Auf Augenhöhe der Schriftzug «Make your music», gleich darunter «Create any song. Just imagine it.» – beides mittig, beides weiss auf schwarzem Hintergrund.[Klick]  Zuerst geht es ans Beschreiben. Wie soll der Song klingen? Von was handelt er? Die KI liefert ein Beispiel mit. Die Prompts (Anweisungen): «A sweet song about a sour apple, melancholic, bittersweet». Als Hilfestellung und Erweiterung gibt es die Möglichkeit, aus einer Vielzahl von Genres passende auszuwählen. Was nicht funktioniert, ist der Verweis auf einen konkreten Song oder eine*n Musiker*in. Der Grund: Urheberrecht. Mit welchen Daten demnach die KI gefüttert wurde – Betriebsgeheimnis. Ich wähle für den Beginn das Genre «Alternative/Indie», ergänze mit «Piano, Violin, Female Voice».
[Klick]  Das Texten – mein Metier. Keine Frage, dass ich die Lyrics beisteuere. Ich kopiere Zeilen einer Schreibübung aus dem letzten Semester. Da die Übung auf Französisch war, besteht das Potenzial a) für ein Chanson à la Joe Dassin,
b) in die Fussstapfen eines Patrick Watson zu treten. Und c) füttere ich die KI nicht mit meinem eigentlichen Schreibstil.
[Klick]   Drei Regler für den Vibe: «Speed, Energy, Chaos». Der Feinschliff. Mit der Computermaus lasse ich die Frequenzwelle sich zu Türmen aufbauschen, zu Bodenwellen verebben und zu einem Relief zerknautschen. Ein gewisser Spassfaktor ist nicht von der Hand zu weisen. Wie sich das konkret auf den Song auswirkt? Keine Ahnung. Aber ich tue es mit einem Lächeln im Gesicht.
[Klick]   Et voilà. Zwei Versionen mit unterschiedlichen Schwerpunkten wurden generiert. Sie klingen in meinen Ohren wie Songs, die sich auf Playlists wie «Chillout», «Study» oder «Electronic Focus» finden lassen – die Qualität von Hintergrundrauschen. Ein Versuch liegt hinter mir. Neun weitere trennen
mich von meinem Feierabend.

Loopingfahrten
Diese Abfolge werde ich noch zwanzigmal wiederholen. Ich werde die Prompts verfeinern und detaillierter auf die Instrumente eingehen. Das Pianosolo als Intro. Geigenklänge zur Überbrückung des Refrains. Einsetzen des Gesangs erst bei Sekunde zweiundzwanzig.Ich werde den Text raffen, umarrangieren, um ihn anschliessend in der Originalversion wieder stehen zu lassen, bevor ich rabiat den Cursor ziehe und auf vier Zeilen kürze. Ich werde verzagen, weil ich keine Übereinkunft zwischen meiner Kopfidee und den generierten Versionen hinkriege. Weil die KI-Stimme entweder die Lyrics vernuschelt, sie übergeht oder sie eins zu eins in einer Roboter-Manier wiedergibt.Ich werde für meinen Text, der nie dazu gedacht war, gesungen zu werden, Scham empfinden. Ich werde einen Ehrgeiz entwickeln, der mich die Tages- und daraufhin die Monatslimite aus den Augen verlieren lässt.Und der mich dazu bringen wird, dass ich mich in den Dienst der KI stelle und als Qualitätsbeauftragte Clip A und B gegeneinander auswerte, um als Gegenleistung Extra-Credits zu sammeln.Ich werde an Tag zwei aufhorchen, erste Erfolge feiern, um gleich darauf von einem unguten Gefühl beschlichen zu werden. Eine Dissonanz zwischen meinem Wunschdenken und der Realität hinsichtlich des fortschrittlichen Standes der KI. Ich werde auf Wiederholbarkeit setzen. Auf Zufall. Und ich werde mit dieser Schiene die vielversprechendsten Ergebnisse erzielen, bevor ich an Tag drei wieder auf Talfahrt gehe.[Klick] Stop und Play
Was von diesem Selbstversuch übrig bleibt, sind zweiundvierzig generierte Musikstücke – sieben taugen als «Songs» (ausbaufähig), eines als Instrumentalschnipsel – und meine Wenigkeit, die nach neunundzwanzig Sekunden wieder auf den Play Button drückt. Wieder hinhorcht. Wieder nicht zu einem Entschluss kommt. Gefällt mir die Melodie? Berührt sie mich?
Bis vor drei Tagen dachte ich, dass KI-generierte Musik1) klar von menschengemachter unterscheidbar wäre2) nicht in der Lage sei, auf emotionaler Ebene anzusprechenNun bin ich mir nicht mehr sicher.