Big Brother hört zu. Unternehmen verwenden „Bossware“, um ihren Mitarbeitern zuzuhören, wenn sie sich in der Nähe ihrer Computer befinden. Mehrere „Spyware“-Apps können Telefonanrufe aufzeichnen. Und Heimgeräte wie Amazons Echo können alltägliche Gespräche aufzeichnen. Eine neue Technologie namens Neural Voice Camouflage bietet jetzt eine Verteidigung. Es erzeugt beim Sprechen benutzerdefinierte Audiogeräusche im Hintergrund und verwirrt die künstliche Intelligenz (KI), die unsere aufgezeichneten Stimmen transkribiert.
Das neue System verwendet einen „gegnerischen Angriff“. Die Strategie nutzt maschinelles Lernen – bei dem Algorithmen Muster in Daten finden – um Klänge so zu optimieren, dass eine KI, aber nicht Menschen, sie mit etwas anderem verwechseln. Im Wesentlichen verwenden Sie eine KI, um eine andere zu täuschen.
Der Prozess ist jedoch nicht so einfach, wie es sich anhört. Die maschinell lernende KI muss den gesamten Soundclip verarbeiten, bevor sie weiß, wie sie ihn optimieren kann, was nicht funktioniert, wenn Sie in Echtzeit tarnen möchten.
In der neuen Studie brachten die Forscher einem neuronalen Netzwerk, einem vom Gehirn inspirierten maschinellen Lernsystem, bei, die Zukunft effektiv vorherzusagen. Sie haben es mit vielen Stunden aufgezeichneter Sprache trainiert, damit es ständig 2-Sekunden-Audioclips verarbeiten und verschleiern kann, was wahrscheinlich als nächstes gesagt wird.
Wenn zum Beispiel jemand gerade gesagt hat „genieße das große Fest“, kann es nicht genau vorhersagen, was als nächstes gesagt wird. Aber unter Berücksichtigung dessen, was gerade gesagt wurde, sowie der Eigenschaften der Stimme des Sprechers werden Klänge erzeugt, die eine Reihe möglicher Sätze stören, die folgen könnten. Das schließt ein, was tatsächlich als nächstes passiert ist; hier sagt derselbe Sprecher: „Das wird gekocht.“ Für menschliche Zuhörer klingt die Audiotarnung wie Hintergrundgeräusche, und sie haben keine Probleme, die gesprochenen Worte zu verstehen. Aber Maschinen stolpern.
Die Wissenschaftler überlagerten die Ausgabe ihres Systems auf aufgezeichnete Sprache, während sie direkt in eines der automatischen Spracherkennungssysteme (ASR) eingespeist wurde, die von Lauschern zum Transkribieren verwendet werden könnten. Das System erhöhte die Wortfehlerrate der ASR-Software von 11,3 % auf 80,2 %. „Ich bin selbst fast verhungert, denn diese Eroberung von Königreichen ist harte Arbeit“, wurde zum Beispiel transkribiert als „Ich bin kaum auf der Suche nach Bedrohungen für diese Königreiche als harenar ov the reson“ (siehe Video oben).
Die Fehlerraten für durch weißes Rauschen getarnte Sprache und einen konkurrierenden gegnerischen Angriff (der mangels Vorhersagefähigkeiten nur das gerade Gehörte mit einer halben Sekunde zu spät abgespieltem Rauschen maskierte) betrugen nur 12,8 % bzw. 20,5 %. Die Arbeit wurde in einem präsentiert Papier letzten Monat auf der International Conference on Learning Representations, die Manuskripteinreichungen begutachtet.
Selbst wenn das ASR-System darauf trainiert wurde, durch Neural Voice Camouflage gestörte Sprache zu transkribieren (eine Technik, die möglicherweise von Lauschern angewendet werden könnte), blieb seine Fehlerquote bei 52,5 %. Im Allgemeinen waren kurze Wörter wie „the“ am schwierigsten zu unterbrechen, aber dies sind die am wenigsten aufschlussreichen Teile eines Gesprächs.
Die Forscher testeten die Methode auch in der realen Welt, indem sie eine Sprachaufnahme in Kombination mit der Tarnung über eine Reihe von Lautsprechern im selben Raum wie ein Mikrofon abspielten. Es funktionierte noch. Zum Beispiel wurde „Ich habe auch gerade einen neuen Monitor bekommen“ transkribiert als „mit Gründen, dass sie auch Toscat und Neumanitor haben“.
Dies ist nur der erste Schritt zum Schutz der Privatsphäre angesichts der KI, sagt Mia Chiquier, Informatikerin an der Columbia University, die die Forschung leitete. „Künstliche Intelligenz sammelt Daten über unsere Stimme, unsere Gesichter und unsere Handlungen. Wir brauchen eine neue Technologiegeneration, die unsere Privatsphäre respektiert.“
Chiquier fügt hinzu, dass der prädiktive Teil des Systems ein großes Potenzial für andere Anwendungen hat, die eine Echtzeitverarbeitung erfordern, wie beispielsweise autonome Fahrzeuge. „Man muss vorhersehen, wo das Auto als nächstes sein wird, wo der Fußgänger sein könnte“, sagt sie. Gehirne funktionieren auch durch Antizipation; Sie sind überrascht, wenn Ihr Gehirn etwas falsch vorhersagt. In diesem Zusammenhang sagt Chiquier: „Wir ahmen die Art und Weise nach, wie Menschen Dinge tun.“
„Die Art und Weise, wie es die Vorhersage der Zukunft, ein klassisches Problem des maschinellen Lernens, mit diesem anderen Problem des kontradiktorischen maschinellen Lernens kombiniert, hat etwas Schönes“, sagt Andrew Owens, Informatiker an der University of Michigan, Ann Arbor, der sich mit Audioverarbeitung befasst und visuelle Tarnung und war nicht an den Arbeiten beteiligt. Bo Li, ein Informatiker an der University of Illinois, Urbana-Champaign, der an Audio-Angriffen gearbeitet hat, war beeindruckt, dass der neue Ansatz sogar gegen das verstärkte ASR-System funktioniert.
Audiotarnung ist dringend erforderlich, sagt Jay Stanley, ein leitender Politikanalyst bei der American Civil Liberties Union. „Wir alle sind anfällig dafür, dass unsere unschuldige Sprache von Sicherheitsalgorithmen falsch interpretiert wird.“ Die Wahrung der Privatsphäre sei harte Arbeit, sagt er. Oder besser gesagt, es ist harenar ov die Resonanz.