Interview

Wo und wie Künstliche Intelligenz bald Musiker*innen ersetzen könnte


Im Interview verrät uns Loudly-Gründer Rory Kenny, wie weit die Technologie ist, ob Grimes' Zukunfts-Prognosen wahrscheinlich sind, was das mit K-Pop zutun hat und wer wirklich den finanziellen Ruin der Künstler*innen verantwortet: KI, Spotify oder doch die großen Label?

Es scheint, als wappne sich die Menschheit langsam für den Wettbewerb mit der Künstlichen Intelligenz. Nicht lange ist es her, dass uns Elon Musk seine Idee der Neuralink-Chips präsentierte. Dabei handelt es sich um ein Gehirn-Computer-Interface, welches es Träger*innen beispielsweise ermöglicht, Musik direkt in ihr Hirn zu streamen. Mit diesem Tool behauptet Musk, würden Menschen auch mit fortgeschrittener Künstlicher Intelligenz konkurrieren können. Der Rapper Lil Uzi und Musks Partnerin und Musikerin Grimes schmieden bereits Pläne, sich die Technologie gemeinsam in den Schädel implantieren zu lassen, um künftig auch musikalisch mit Künstlichen Intelligenzen mitzuhalten. Laut Grimes sei nämlich das Ende der menschlichen Kunst nah.

Hackerangriff: Entwicklerfirma von „Cyberpunk 2077“ wird erpresst

Nur eine Traumvorstellung der Milliardäre?

Grimes sorgte erst im November 2020 für einen Aufschrei in den sozialen Medien, als sie eine kühne Vorhersage über die Zukunft der Kreativbranche machte. In Sean Carrolls Mindscape-Podcast prophezeite sie: „Ich habe das Gefühl, dass wir uns am Ende der Kunst befinden, der menschlichen Kunst. Sobald es tatsächlich AGI (Artificial General Intelligence) gibt, werden sie so viel besser darin sein, Kunst zu machen als wir.“ Eine KI soll nun also kreativ und innovativ sein? Fähigkeiten, mit denen sich der Mensch eigentlich von der Natur abheben will? Kein Wunder, dass es da heftigen Gegenwind gab. Die Musikerin Zola Jesus nannte Grimes daraufhin die „Stimme des faschistischen Privilegs aus Silicon Valley“. Majical-Cloudz-Frontmann Devon Welsh warf ihr vor, „die Vogelperspektive der Milliardäre“ einzunehmen.

Bereits Alan Turing baute eine Musik-KI

Dabei sind Künstliche Intelligenz und Musik bereits seit langer Zeit miteinander verwoben. Bereits Alan Turing, der Pate der Computerwissenschaft, faszinierte sich für die kreativen Kompetenzen von Maschinen und baute 1951 ein Modell, welches in der Lage war drei einfache Melodien zu generieren. Seither ist die Technik jedoch bereits um einiges weiter und viele Musiker*innen sind der Meinung, dass die KI eine neue goldene Ära der Kreativität einläuten wird. Doch mit dem Fortschritt kommen auch einige Probleme: Wer hat die Copyright-Rechte an KI-Musik? Wie repräsentativ und demokratisch ist Künstliche Intelligenz wirklich? Und werden Musiker*innen in Konkurrenz mit den maschinellen Tunes künftig noch weniger durch Streaming verdienen?

Wir haben uns mit Rory Kenny, Gründer des KI- und Musik-Start-Ups Loudly über die Zukunft der Musikbranche unterhalten und geklärt, wie weit die Technologie ist, was das Ganze mit K-Pop zu tun hat und wer nun wirklich Schuld am finanziellen Ruin der Künstler ist: Spotify, die Technologie oder doch die dicken Label?

Grimes beim Coachella Valley Music & Arts Festival 2016

musikexpress.de: Herr Kenny, stimmen Sie Grimes‘ Prophezeiung zu, dass wir uns am Ende der menschlichen Kunst befinden?

Rory Kenny: Aus meiner Erfahrung mit der Entwicklung von KI-Musik und den Herausforderungen, denen wir uns stellen müssen, denke ich, dass wir extrem weit davon entfernt sind, jemals die Schönheit der menschlichen Fähigkeit, Musik zu machen, zu erreichen. KI-gestützte Musik wird einem anderen Zweck dienen. Ich würde das nie zum Ziel setzen. Ich vergleiche KI-Musik nicht mit menschlicher Musik. Das ist ein falscher Vergleich. Menschliche Musik hat Geschichte, Kontext und Erfahrung, sie ist clever. KI hat per Definition keine Geschichte oder Kontext und sie hat keine Emotionen. Es ist also wichtig, KI-Musik und menschlich komponierte Musik zu trennen.

„Die KI ist definitiv nicht da, wo sie in 20 Jahren sein wird, denn heute sind unsere Daten extrem gebiased und die Leute nutzen alles, wie sie in die Finger bekommen können…“

Wie arbeitet Ihre KI, wenn sie Musik generiert?

KI muss erstmal etwas lernen und trainiert werden. Unsere spezielle KI wird auf die Sequenzierung von Audio-Loops trainiert. Als Produzent ist es heute üblich Audio-Loops und Samples aus dem Internet zu kaufen oder eigene zu erstellen. Das sequenziert man dann in einen Techno- oder House-Track und diese Sequenz ist ein Versuch des Menschen, einen Songaufbau zu erstellen. Wir haben 8 Millionen Projektdateien über 10 Genres hinweg – eine Projektdatei hat 8 Audiokanäle, gefüllt von Audio-Loops. Wenn wir das der KI geben, weiß sie, was jeder Loop ist – ein Drum-Loop, ein Base-Loop, ein Synth-Loop – und sie lernt, wie wir die Songstruktur erstellt haben. Und wir haben ihr beigebracht, dass sie Anfang, Mitte und Ende in Bezug auf die Songstruktur versteht. Einfacher geht’s nicht: Die KI lernt, welche Sounds sie sich holt und in welcher Reihenfolge diese erscheinen sollen, und das war’s. Andere KIs erstellen einen Sound von Grund auf neu oder komponieren sie. Die Idee ist, inspirierende Stücke zu erstellen, die Sie dann später modifizieren können.

Bereits in den 90er-Jahren nutzte David Bowie einen digitalen Lyrik-Zufallsgenerator zur Inspiration. Aber legt KI nicht in Stein gemeißelt fest, wie die Welt funktioniert? Kann etwas, das feste Regeln, Gesetze und Grenzen hat, tatsächlich inspirieren?

Das Hauptproblem bei KI ist heute nicht so sehr die Technologie, sondern die Art und Weise, wie die Menschen sie trainiert haben. Wenn die Schöpfer selbst voreingenommen sind, ist das bereits ein Punkt gegen diese Technologie. Zweitens könnte es auch sein, dass nicht die Menschen, sondern ihre Daten einen sogenannten Bias, eine Art Verzerrung,  haben. Es ist wirklich schwer, gute Daten für KI zu finden. Wenn die Daten einen Bias haben, wird auch die KI gebiased sein. Es geht also nicht so sehr um die Technologie, sondern eher darum, welche Art von Daten man in die KI einbringt, um den Bias zu vermindern und sie repräsentativer zu machen. Man könnte meinen, dass der Bias bei bestimmten Genres liegt, und das ist wahr. Wenn wir gute Daten über HipHop haben, dann wird das unser bestes Modell sein. Wenn wir schlechtere Daten über klassische Musik haben, dann wird das unser schlechtestes Modell sein. Aber dann ist es auch wichtig, welche Qualität von Musik in die KI einfließt. Die KI ist definitiv nicht da, wo sie in 20 Jahren sein wird, denn heute sind unsere Daten extrem gebiased und die Leute nutzen alles, wie sie in die Finger bekommen können. Aber sie wissen auch, dass es massive Lücken in den Daten gibt.

Youtube Placeholder
An dieser Stelle findest du Inhalte aus Youtube
Um mit Inhalten aus Sozialen Netzwerken zu interagieren oder diese darzustellen, brauchen wir deine Zustimmung.

Achten Sie darauf, Musik von Menschen aus verschiedenen Kulturen und ethnischen Hintergründen einzubeziehen?

In unserem Musikkatalog findet sich beispielsweise eine Musikrichtung, die sich Moombahton nennt. Das ist keine übliche westliche Musik und heute dennoch ein beliebtes Genre. Wir jagen definitiv Genres hinterher, die populär sind, aber wenn du mich fragst, ob wir wirklich gute arabische Musik haben, muss ich nein sagen, weil wir keine arabische Musik haben, mit der wir die KI trainieren können. Wenn wir nicht die richtige Musik haben, wird sie qualitativ schlechter. Ich setze vorerst lieber auf Qualität als auf Vollständigkeit. Mit der Zeit werden wir hoffentlich alle Genres abdecken.

Man könnte auch die andere Seite einnehmen und argumentieren, dass erst die KI-Muster und Paradigmen erkennbar werden lässt, so dass wir sie schließlich brechen können, so wie Dadabots. Oder?

Dadabots machen etwas anderes mit KI. Sie reizen aus, wozu sie fähig ist. Dinge die ein Mensch nicht tun würde, nämlich analytische Musik zu erzeugen, die nie aufhört. Ich finde es cool, was sie machen.

Youtube Placeholder
An dieser Stelle findest du Inhalte aus Youtube
Um mit Inhalten aus Sozialen Netzwerken zu interagieren oder diese darzustellen, brauchen wir deine Zustimmung.

KI wird oft mit dem Narrativ angepriesen die Welt zu verbessern und die Gesellschaft demokratischer zu machen. Demokratisiert KI tatsächlich das Musikbusiness?

Wenn man zurückblickt, denke ich, dass es drei Phasen der Musikindustrie gibt, was die Kreation angeht. Die erste ist die analoge Ära, die von den 20er-Jahren bis 1990 reicht. In dieser Ära musste man in ein Studio gehen, Instrumente in Echtzeit spielen, aufnehmen und auf Band bringen, und das kostete eine Menge Geld. 5.000 Dollar pro Tag, um ein professionelles Studio zu benutzen. Das schränkt die Anzahl der Leute ein, die tatsächlich professionell Musik machen können. Und ja, damals entstand dadurch die ganze Independent-Musikszene, aber die Produktion war immer noch teuer. 1991, mit der Veröffentlichung der Digital Audio Workstation (DAW), der ersten Studiosoftware für den Desktop, die damals etwa 500 Dollar kostete, konnte man sie herunterladen und tatsächlich 24/7 Musik aufnehmen, ohne zusätzliche Kosten. Ich glaube, wir sind von 10 Millionen professionellen Künstlern auf heute 100 Millionen Menschen gekommen, die Musik auf ihren Handys und Desktops machen. Und deshalb gibt es Soundcloud und Spotify, die jeden Tag 50.000 Songs aufnehmen. Jetzt befinden wir uns in der Ära der KI, die letztes Jahr eingeführt wurde. Meine Vorhersage ist, dass es die 100 Millionen Kreativen von heute weltweit auf eine Milliarde Menschen erhöhen wird, die KI-gestützte Tools nutzen, um Musik zu machen. Das ist eine massive Demokratisierung des Zugangs zum Musikmachen.

„Wenn man die Monetarisierung in der Musik ändern will, sollte man die großen Labels auffordern ihre eigenen Künstler fairer zu bezahlen. Denn Spotify schreibt den Labels nicht vor wie viel sie ihren Künstlern zahlen sollen.“

Werden professionelle Musiker*innen dann nicht obsolet?

Nun, ein anderes Beispiel ist Instagram. Es war eine heilige Domäne der professionellen Fotografie, aber Instagram hat sich verändert. War das eine Bedrohung? Anfangs vielleicht, aber jetzt sehen wir, dass jeder mit seinem Handy fotografiert und diese Filter hat, um es lustiger und spielerischer zu machen. Dann war die Frage: Wird das die Fotografen ersetzen? Aber wenn ich mir heute Instagram anschaue, sieht man täglich so viel Fotografie, weil die Leute Fotografen anstellen oder selbst ihre Fotografie-Skills ausbauen. Ich denke also, dass Instagram unglaubliche Dinge für die Fotografie getan hat, und ich glaube, dass KI-Musik den gleichen Weg geht: es zugänglicher und spaßiger zu machen, schnelle Filter zur Hand zu haben, um es verrückt klingen zu lassen.

Pop als Billigware: Wie Spotify die Musik bestimmt

Plattformen wie Spotify zahlen Musiker*innen jedoch lediglich 0,004€ pro Stream. Das liegt vor allem daran, dass die Abo-Gebühr nicht direkt an die Künstler*innen gezahlt wird, sondern in einen Gesamtpool fließt, der entsprechend der Anzahl der generierten Streams an die Künstler*innen ausgezahlt wird. Werden diese Zahlen nicht noch verheerender, sobald Musiker*innen zusätzlich mit KI-generierter Musik konkurrieren müssen?

Es kommt wirklich darauf an, wem man hier die Schuld geben will. Es ist wichtig zu wissen, woher das Geld kommt und wo es landet. Zunächst einmal, wenn Spotify einen Erlös pro Stream festgelegt hat, haben dem alle großen Labels zugestimmt. Sie könnten morgen sagen ’nein, lasst es uns ändern‘, aber das tun sie nicht. Und die tatsächliche Auszahlung an den Künstler hat nichts mit Spotify zu tun, sondern mit dem Vertrag mit dem großen Musiklabel. Und darüber wollen die Labels nicht reden. Wenn man die Monetarisierung in der Musik ändern will, sollte man die großen Labels auffordern ihre eigenen Künstler fairer zu bezahlen. Spotify schreibt den Labels nicht vor wie viel sie ihren Künstlern zahlen sollen.

Die andere Sache ist, dass Spotifys Einnahmen aus den oberen 10 Prozent aller gestreamten Songs stammen. Es ist also eine sehr kleine Klasse von Labels und Musikern, die den größten Teil der Einnahmen von Spotify erhalten. Ob nun 100.000 Tracks oder eine Million Tracks hochgeladen werden, spielt keine Rolle, denn es kommt auf die Anzahl und den Anteil der Streams an. KI-Musik wird den Markt auf jeden Fall überschwemmen, aber das kommerzielle Modell ist etwas, das in der Hand des Labels und von Spotify liegt. Die Erstellung von Musik ist davon getrennt. Eine DAW hat noch nie einen Einfluss darauf gehabt, wie ein Musiker monetarisiert wird.

Youtube Placeholder
An dieser Stelle findest du Inhalte aus Youtube
Um mit Inhalten aus Sozialen Netzwerken zu interagieren oder diese darzustellen, brauchen wir deine Zustimmung.

Dann gibt es da noch einen anderen Faktor: KI-generierte Musik wird oft an Leute vermarktet, die Copyright-Verletzungen vermeiden wollen. Umgehen wir damit nicht das eigentliche Problem, dass das Urheberrecht nicht die richtige Balance zwischen den Urheber*innen und der Öffentlichkeit findet? Künstler*innen nutzen Social-Media-Plattformen, um ihre Inhalte kostengünstig zu bewerben und freuen sich, wenn ihre Musik von anderen auf TikTok verwendet wird. Dasselbe gilt für Twitch, das gerade den DMCA-Prozess durchlaufen hat. Wenn diese Musik verboten und durch KI-Musik ersetzt wird, wie ist es dann möglich, kleine, unabhängige Künstler*innen zu unterstützen?

Auch hier wird der Vertrag von den großen Labels festgelegt, auch von den Independent-Labels. Es geht nur darum, das Urheberrecht einzuschränken, damit das Label die Möglichkeit hat, dieses Urheberrecht so weit wie möglich auszunutzen. Das hat gut funktioniert, bis das Internet kam. Und dann gab es Probleme mit Napster, das dann zu Spotify wurde, der legalen Version von Napster, und dann mussten die Labels Verträge mit Spotify ausarbeiten. Wenn es darum geht, wie Musik auf diesen großen Plattformen genutzt wird, haben die Major-Labels alle parallel Deals mit Facebook, Instagram, Twitch und so weiter geschlossen, um ihren eigenen Katalog auf den Plattformen verfügbar zu machen. Doch um es klar zu sagen: Es sind nicht die Independent-Labels, die diese Deals mit Facebook haben. Und niemand weiß, was in diesen Verträgen steht, aber es erlaubt im Grunde jedem auf Facebook, die Musik aus diesem großen Katalog in bestimmten Arten von Social Media Posts zu verwenden. Und auch das ist mit Einschränkungen verbunden, wie z.B. dass nur 15 Sekunden verwendet werden dürfen und so weiter. Also haben die großen Labels auch hier alles getan, um mehr Einnahmen von Facebook zu bekommen, die sie natürlich an die Künstler weitergeben, aber niemand weiß, wie viel – selbst sie wissen wahrscheinlich nicht, wie viel sie bekommen – und sie legen Facebook Beschränkungen auf. Das ist ein Vorteil, denn so wird die Musik wenigstens veröffentlicht. Aber ich weiß nicht, ob Facebook, Twitch oder Instagram das so gut finden, da sie der Urheberrechtskontrolle ausgeliefert sind.

„Wenn die Regierung morgen die Entscheidung trifft, dass das Urheberrecht in den Händen eines Menschen liegen muss, (…) gibt es einige Probleme.“

Und was wäre die Alternative?

Ich stelle mir eine Welt vor, in der man nicht nur konsumiert, sondern tatsächlich seine eigene Welt gestalten kann, was bereits mit Metaverse, Roblox, Minecraft oder Facebooks New Horizon geschieht. Wenn du eine Welt in Minecraft erschaffen willst, kannst du das tun, weil sie dir alle Grundbausteine geben. Nun ist die Musik dem nicht gefolgt, weil sie mit dem Copyright feststeckt. Rechtlich kann man keinen Track von Universal Music verändern, aber in unserem Engine kann man alles verändern.

Aber wer bekommt die Copyright-Credits bei KI-Musik: die Programmierer*innen, die ursprünglichen Musiker*innen, deren Werke die Trainingsdaten geliefert haben, oder sogar die KI selbst?

Das sind alles rechtliche Bedingungen, die von der Industrie festgelegt werden. Ich weiß nicht, wie das in Zukunft aussehen wird, aber im Moment gehört der Firma die KI-Engine, sie hat sie entwickelt, in sie investiert, sie macht ihre eigene Musik und unsere Musiker, die für uns arbeiten, wissen genau, wie sie verwendet wird. Im Moment behalten wir also die Rechte an unserer eigenen Musik. Wenn die Regierung morgen die Entscheidung trifft, dass das Urheberrecht in den Händen eines Menschen liegen muss – was meiner Meinung nach in einigen Ländern der Fall ist – gibt es einige Probleme, weil die Industrie nicht weiß, wie sie damit umgehen soll, und sie wird wahrscheinlich die Rechte der bestehenden Urheberrechtsinhaber schützen wollen. Ich denke, es wird eine Menge Reibung geben.

„Eine KI wird niemals in der Lage sein, einen menschlichen Ausdruck zu replizieren.“

Wenn Sie Algorithmen entwickeln, bauen Sie gewissermaßen die Natur nach und nehmen sie noch genauer unter die Lupe. Was haben Sie in diesem Prozess über die menschliche Kreativität gelernt? Irgendetwas Schockierendes?

Ich habe eine gesunde Skepsis gegenüber dem, was KI leisten kann. In den letzten Jahren ist mir klar geworden – und ich schäme mich nicht, das zuzugeben –, dass das, was ich an Musik liebe, nicht nur die Musikalität ist, sondern die Persönlichkeit, die Texte, die einzigartig für diese Person sind, die Tonalität, die kulturellen Aspekte, die Cleverness der Musik, das Sinnliche. Ich denke, eine KI wird niemals in der Lage sein, einen menschlichen Ausdruck zu replizieren. Ich meine, warum sollten wir das wollen? Was sie aber tun kann, ist uns zu helfen, kreativer zu sein. Wenn man eine KI-Software startet, ist das Level-Playing-Field für alle gleich, und was man dann darüber hinaus tut, ist was das einzigartige Talent ausmacht. Für mich ist die Quintessenz bei der Musikkreation, dass sie kollaborativ sein muss. Und das ist das Ziel für KI.

Was den menschlichen Aspekt der Musik angeht, so gibt es auch eine genau entgegengesetzte Bewegung: K-Pop-Künstler*innen, die gezielt in Trainingscamps gehen, um ihre roboterhaften Tanzbewegungen zu perfektionieren und Unterhaltungsmaschinen zu werden. Die Menschen sind davon fasziniert.

Das ist interessant, es ist fast so, als gäbe es eine gewisse Ironie darin, Menschen wie Maschinen aussehen zu lassen. Auf einer kulturellen Ebene wollen wir diese Mechanisierung vielleicht reflektieren.

Youtube Placeholder
An dieser Stelle findest du Inhalte aus Youtube
Um mit Inhalten aus Sozialen Netzwerken zu interagieren oder diese darzustellen, brauchen wir deine Zustimmung.

US-Botschafter in Vietnam veröffentlicht Rap-Song mit Video
Emma McIntyre Getty Images