

Wie man passende Datensätze baut, um erfolgreich Audio-Deepfakes zu erkennen
Deepfakes stellen eine erhebliche Bedrohung für die Demokratie sowie für Privatpersonen und Unternehmen dar. Sie ermöglichen unter anderem Desinformation, den Diebstahl geistigen Eigentums oder Trickbetrug. Robuste KI-Erkennungssysteme bieten eine Lösung, doch ihre Effektivität hängt entscheidend von der Qualität der zugrunde liegenden Daten ab: »Garbage in, garbage out«. Aber wie erstellt man einen Datensatz, der für die Erkennung von Deepfakes – die sich ständig weiterentwickeln – gut geeignet ist und eine robuste Detektion erlaubt? Was macht hochwertige Trainingsdaten aus?