Foto: © picture alliance/AP Photo | Uncredited

LTO: Rechtlicher Schutz der menschlichen Stimme – Wenn die KI mit meiner Stimme spricht

von Georg Manthey und Simon Liepert

07.10.2023

„Donald Trump ist ein Volldepp“, sagt Obama hier wütend in die Kamera. Bloß: alles Fake! Mittels KI lassen sich einfach Stimme und Mundbewegungen fälschen.

Mit KI-Tools kann man jeder Person beliebige Worte in den Mund legen – ein enormes Missbrauchspotential. Dabei sind nicht nur Äußerungen oder Aufnahmen geschützt, sondern auch die Stimme als solche, erklären Georg Manthey und Simon Liepert.

Jeder Mensch hat eine einzigartige Stimme. Banken nutzen die Stimme ihrer Kunden, um in Telefon-Hotlines sicherzustellen, dass persönliche Informationen und Dienstleistungen nur gegenüber den Kontoinhabern erteilt werden. Virtuelle Sprachassistenten wie Google Assistant oder Siri erkennen Nutzer anhand der Stimme, kontrollieren den Zugang zu Konten und Diensten und legen individuelle Nutzerprofile an, etwa um personalisierte Werbung auszuspielen.

Inzwischen können KI-Anwendungen Stimmen täuschend echt nachahmen, damit können Betrüger diese Schranken umgehen – sie brauchen dafür nur eine einige Minuten lange Sprachaufnahme, etwa aus Videos in sozialen Netzwerken. Die echte Stimme kann damit geklont werden und genutzt werden, um beliebige Textpassagen aufsagen zu lassen.

Gefälschte Reden, KI-Songs mit der Stimme von Weltstars

Die Nachahmung der Stimme eröffnet nicht nur den Zugriff auf persönliche Informationen und Vermögenswerte. Werden Meinungsführern beliebige Worte in den Mund gelegt, kann deren Ansehen ausgenutzt werden, um andere zu einem bestimmten Handeln zu verleiten. Plakativ zeigt das ein Video vom ZDF-Nachrichtensprecher Christian Sievers, der im üblichen Nachrichtenformat über ein vermeintlich lukratives Investment berichtet. Das schädigt nicht nur jene, die den Fake nicht erkennen, sondern auch das Ansehen der Vertrauenspersonen. 

Ein Einsatz von mittels KI erzeugten Fakes im politischen Wahlkampf war im letzten US-Präsidentschaftswahlkampf zu beobachten. Gefälschte Fotografien und Videos tauchten auf, die die gegenüberstehenden Lager verächtlich machten. Auch Radio-Interviews ließen sich mit den dargestellten Mitteln ohne weiteres fälschen. Das verletzt nicht nur der Rechte der betroffenen Politiker – es lässt auch das Vertrauen in politische Parteien und Institutionen schwinden. 

Der Song „Heart on my Sleeve“ der Künstler Drake und The Weeknd wurde Anfang des Jahres veröffentlicht, ohne dass beide daran beteiligt waren. KI hat deren Musik und Stimmen täuschend echt nachgeahmt. Durch die Ausbeutung des Rufs dieser Weltstars lassen sich Einnahmen generieren, die mit eigens kreierter Musik nicht derart einfach zu erreichen wäre. Zwar sind die Plattenfirmen gegen die Veröffentlichung vorgegangen – da war der Song allerdings schon in aller Munde.

Rechtlich geschützt sind in diesen Fällen Name und Bildnis der in Fake-Videos gezeigten Personen als Teile des Allgemeinen Persönlichkeitsrechts (APR), die den gefälschten Aufnahmen und Musiktiteln zugrunde liegenden, urheberrechtlich geschützten Aufnahmen und möglicherweise auch Texte. Diese Schutzregime stoßen an Ihre Grenzen, wenn KI-generierte Sprachaufnahmen beliebige neue Texte aufsagen. Allerdings sind die Betroffenen auch dann nicht schutzlos: Die menschliche Stimme erfährt rechtlichen Schutz durch das Datenschutzrecht und als Teil des Persönlichkeitsrechts. Dass die Stimme einen rechtliche Schutzgegenstand darstellt, der von dem gesprochenen oder gesungenen Inhalt und den zugrundeliegenden Aufnahmen geschützt ist, steht zu wenig im Bewusstsein der Betroffenen und Rechtsanwender.

Was macht die Stimme so einzigartig?

Die menschliche Stimme ist als personenbezogenes Datum geschützt. Sie ist Ausdruck der individuellen physiologischen und genetischen Anlage sowie der sozio-kulturellen Prägung ihrer Träger. Das macht sie so einzigartig wie einen Fingerabdruck.

Der für den Stimmklang grundlegende Kehlkopfklang ist durch die Größe und Gewebeeigenschaften der Stimmbänder und deren Stellknorpel bedingt. Im Rachen-, Mund- und Nasenraum wird er eingefärbt. Maßgeblich ist das Volumen des Vokaltrakts, welches die Eigenfrequenz dieses Resonanzraums und die Stimmlage prägt. Mit dem Alter senkt sich der Kehlkopf ab – der Klangraum wird größer. Gleichzeitig nimmt die Länge der Stimmbänder zu. Beide Faktoren bewirken, dass Kinderstimmen höher liegen als jene Erwachsener. 

Wir erkennen Sprecher, Sänger und Schauspieler nicht nur aufgrund dieser physiologisch und genetisch bedingten Basis ihres Stimmklangs, sondern auch daran, wie sie diese einsetzen. Neben den Bewegungen der Stimmlippen und des Vokaltrakts beeinflussen solche der Zunge und Lippen den Charakter einer Stimme. Der Einsatz dieser Instrumente ist sozio-kulturell geprägt. Das gilt etwa für regionale Sprechgewohnheiten. 

Wie die DSGVO die Stimme schützt

Die Stimme ist als biometrisches Datum einzuordnen und genießt nach Art. 9 Datenschutzgrundverordnung (DSGVO) den Schutz besonderer Kategorien von personenbezogenen Daten. Von der Stimme lassen sich auch Informationen über die Gesundheit abhören. Nasales Sprechen oder Heiserkeit verraten eine gesundheitliche Störung, wenngleich deren Ursache nicht eindeutig zu ermitteln ist. Ersatzstimmen mittels elektronischer Sprechhilfen weisen hingegen eindeutig auf die Entfernung des Kehlkopfs hin.

Die Verarbeitung personenbezogener Daten ist rechtlich untersagt, sofern nicht ein gesetzlicher Erlaubnistatbestand gegeben ist. Die Voraussetzungen dafür sind hoch – insbesondere durch die Einordnung der Stimme als biometrisches oder Gesundheitsdatum. Aufgrund dessen sind nicht nur die Erlaubnistatbestände nach Art. 6 DSGVO zu beachten, sondern auch die höheren Anforderungen des Art. 9 DSGVO: 

Eine rechtfertigende Einwilligung in die Verarbeitung der Stimme liegt im Falle eines Missbrauchs gerade nicht vor. Neben einer Einwilligung wäre die Verarbeitung etwa dann gerechtfertigt, wenn Betroffene die Stimme offensichtlich öffentlich gemacht haben, Art. 9 Abs. 2 lit e) DSGVO. Dass beispielsweise Politiker auf den Schutz ihrer biometrischen und Gesundheitsdaten verzichten, nur weil sie in der Öffentlichkeit auftreten, liegt jedoch fern. Und wäre das der Fall, müsste die Datenverarbeitung nach Art. 6 DSGVO zur Erfüllung eines Vertrags erforderlich oder nach Abwägung der beidseitigen Interessen gerechtfertigt sein.

Diese Voraussetzungen werden nicht gegeben sein, wenn die Stimme unbefugt für das Training von KI, zur Nachahmung und missbräuchlichen Nutzung verwendet werden. Die rechtmäßige Verarbeitung der Stimme ist datenschutzrechtlich voraussetzungsvoll. 

Stimme als Bestandteil des allgemeinen Persönlichkeitsrechts

Ist die Stimme nicht datenschutzrechtlich geschützt – etwa weil die Betroffenen verstorben sind oder weil die Stimme für journalistische, wissenschaftliche oder künstlerische Zwecke genutzt wird, also für Zwecke, die datenschutzrechtlich privilegiert sind – kann sie als Teil des (postmortalen) APR geschützt sein. 

Der Bundesgerichtshof (BGH, Urt. v. 1.12.1999, Az. I ZR 49/97) betonte in dem nach Marlene Dietrich benannten Urteil, dass das APR nicht nur Bildnis und Name, sondern auch die Stimme als ein Merkmal schütze, welches das Wiedererkennen der Person ermöglicht. Die Stimme der Dietrich und ihr Sprechgesang waren einmalig und noch nach ihrem Tod war der Mythos „Marlene“ Gegenstand weiterer Rechtsstreite. 

Das APR gewährleistet den Schutz der Menschenwürde und das Recht auf freie Entfaltung der Persönlichkeit. Es schützt vor allem ideelle Interessen wie den Wert- und Achtungsanspruch. Dass das Ansehen einer Person erheblich dadurch beeinträchtigt werden kann, dass ihr beliebige Äußerungen in den Mund gelegt werden, zeigte der Obama-Deepfake eindrucksvoll, bei dem ein Comedian mithilfe von KI ein künstliches Video schuf, in dem der Ex-Präsident seinen Nachfolger Donald Trump wüst beschimpfte.

Neben ideellen schützt das APR auch vermögenswerte Interessen. Der BGH maß der Stimme der Dietrich einen erheblichen wirtschaftlichen Wert bei. Davon ging zuvor schon das Oberlandesgericht (OLG) Hamburg (Beschl. v.  8.5.1989, Az. 3 W 45/89) für Heinz Erhardt aus, einem der bekanntesten deutschen Komiker, der sich durch seine Wortwahl und seinen besonderen Stimmklang auszeichnete. Zehn Jahre nach dessen Tod ging sein Sohn gegen einen Werbespot vor, in dem ein Stimmenimitator die Sprache Heinz Erhardts täuschend echt nachahmte und einen Werbetext unter Verwendung typisch Erhardtscher Redewendungen verlas. Das OLG untersagte die weitere Verwertung des Spots.

Das APR gewährt also das Recht, die unerlaubte Verwendung der eigenen Stimme zu untersagen, wenn diese die persönliche Ehre beeinträchtigt oder zur Förderung materieller Interessen ausgebeutet wird. Nach dem Tod der Betroffenen können die von ihnen dazu Berufenen oder die Erben bestehende persönlichkeitsrechtliche Ansprüche in bestimmtem Umfang noch geltend machen, wenn Datenschutzrechte nicht (mehr) greifen. Unter Berufung auf das APR können Politiker als gegen Fakes und Künstler gegen die unerlaubte Auswertung ihrer Stimme in KI-generierten Werken vorgehen.

Datenschutz- oder Persönlichkeitsrecht?

Sind beide Schutzrechtsregime betroffen, ist umstritten, in welchen Fällen sich die Betroffenen auf ihre Datenschutz- oder Persönlichkeitsrechte oder auf beide berufen können. Viel spricht dafür, auf das vorrangig betroffene Rechtsgut abzustellen. Danach ist das APR anwendbar, wenn Persönlichkeitsmerkmale von Dritten kommerziell verwertet werden oder vorrangig die persönliche Ehre gegenüber der informationellen Selbstbestimmung betroffen ist. 

In vielen Fällen führen die Schutzregime zu ähnlichen Ergebnissen.  Ist die Verwendung der Stimme nicht gerechtfertigt, ist sie zu beseitigen bzw. sind die verarbeiteten Stimmdaten zu löschen. Diese Ansprüche bieten sowohl das Datenschutz- als auch das Persönlichkeitsrecht. Die Unterlassung für die Zukunft kann ebenso gefordert werden, nach wohl überwiegender Meinung auch aus Art. 17 DSGVO.

Informiert werden sollten die Betroffenen schon bei der Erhebung ihrer Daten, Art. 13 f. DSGVO. Das Recht auf Auskunft über den Umfang der Nutzung bzw. über Verarbeitungszwecke und Empfänger der Daten haben sie wiederum aus beiden Schutzregimen, wenn eine Verarbeitung der Stimme erfolgt, Art. 15 DSGVO. Diese Informationen zu erhalten ist für die Bemessung des eingetretenen Schadens von großer Bedeutung.

Möglich ist aber auch, über Verträge die eigene Stimme zu schützen – oder zu kommerzialisieren: Einen kreativen Weg, mit der Nachahmung ihrer Stimme umzugehen, fand die kanadische Musikerin Grimes. Sie bietet über eine Software die Nutzung ihrer Stimme gegen Beteiligung an den damit erzielten Einnahmen an.

Georg Manthey ist Rechtsanwalt bei Spirit Legal. Er ist im Musikrecht tätig und arbeitete als Projektmanager für den Internationalen A Cappella Wettbewerb Leipzig. Simon Liepert ist Wissenschaftlicher Mitarbeiter bei Spirit Legal Rechtsanwälte. Als Wirtschaftsrechtskanzlei mit Schwerpunkt Technologie und Medien berät Spirit Legal seit vielen Jahren Start-ups und mittelständische Firmen, Behörden, Ministerien und DAX-Unternehmen.

Foto: picture alliance/AP Photo | Uncredited

(LTO, PM v. 7.10.2023)

Mehr hier