
Die IT-Sicherheitsorganisation FIDO-Allianz (Fast IDentity Online) definiert in ihren Biometric Requirements drei verschiedene Angriffsarten (Level A, B und C), die nach Zeitaufwand, der notwendigen Expertise und des Zugangs zur Quelle der biometrischen Daten geordnet sind (siehe Tabelle).
Um ein System gegen solche Angriffe zu schützen, gibt es verschiedene Ansätze. Eine Möglichkeit ist es, mit weiteren Sensoren zusätzliche Informationen zu erfassen, wie etwa Tiefeninformationen. Ein Beispiel hierfür ist das in Apples iPhones verbaute FaceID, das einen Lidar-Sensor für die dreidimensionale Abtastung des Nutzergesichts verwendet. Weitere Möglichkeiten sind Infrarot-, Wärmebild-, Lichtfeld-, Multispektral- und Stereokameras. Der Einsatz von zusätzlichen Sensoren ist jedoch oft mit hohen Kosten für Entwicklung und Material verbunden und nicht in allen Designs realisierbar. Zudem sind Verbesserungen für bestehende Systeme selten eine Optionen. Zusätzlich bedroht der Fortschritt im 3D-Druck zunehmend auch die Sicherheit von Systemen, die mit Tiefensensoren oder 3D-Kameras ausgestattet sind.
Es gibt jedoch eine Reihe von Möglichkeiten, rein kamerabasierte Gesichtserkennungssysteme robuster gegen Angriffe aller drei FIDO-Arten zu machen. Dabei wird zwischen statischer und dynamischer Analyse unterschieden. Statische Verfahren werten dabei nur ein Bild aus, dynamische Verfahren verarbeiten Informationen aus mehreren Bildern gleichzeitig.
Die statische Analyse
Statische Methoden basieren darauf, dass sie gefälschte Gesichtsdaten – etwa Masken, Bildschirme oder Papierdruck – nutzen, die sich in ihrer Qualität und ihrem Aussehen von echten Gesichtern unterscheiden. Dabei geht es um Unterschiede in der Textur, aber auch bei der Reflexion und Absorption, sowie der Streuung und Brechung des Lichts durch das betrachtete Material. Ein Nachteil ist die starke Abhängigkeit von der Qualität der Aufnahme, die vor allem durch die Kameraauflösung und die Lichtbedingungen beeinflusst wird.
Durch die sich stetig verbessernde Verfügbarkeit von Beispieldaten für diese Aufgabe und maschinellem Lernen sind die Resultate dieser Verfahren mittlerweile sehr vielversprechend. Eine Einschränkung ist, dass sie nur bei bekannten Angriffsarten unter bekannten Umständen wirklich gut funktionieren.
Da ein Modell nur mit Bildern bekannter Täuschungsversuche trainiert wird, ist ein Schutz gegen alle drei Angriffsebenen zwar möglich, neue Angriffsmethoden könnten diese jedoch wieder aushebeln. Ein entsprechendes System sollte daher dauerhafte Updatefähigkeit bieten.
Dynamische Analyse
Dynamische Methoden verwenden Informationen aus mehreren Frames der Kamera. Sie basieren also auf Bewegungen, die auf eine echte Person schließen lassen. Die Methode lässt sich weiter unterteilen in passive Methoden, die auf natürliche Bewegungen der Person reagieren, und aktive Methoden, die eine bestimmte Aktion des Nutzers fordern. Für die Nutzerfreundlichkeit eines Zugangskontroll- oder besonders eines Zeiterfassungssystems sollte man sich auf Methoden beschränken, die keine bis nur minimale aktive Kooperation des Nutzers erfordern.
Ein Ansatz, der sich auf die Erkennung von Level-B- und besonders auf Level-A-Angriffen fokussiert, nutzt Optical Flow. Diese Methode untersucht, ob die sichtbare Bewegung die Pixel der Rotation einer ebenen Fläche um sich selbst entsprechen, wie es bei einem Foto der Fall wäre. Andere auf Optical Flow basierende Methoden suchen eine Korrelation zwischen der Bewegung des Gesichts und des unmittelbaren Hintergrunds. Synchrone Bewegung von Gesicht und Hintergrund, wie bei Bewegungen von handgehaltenen Fotos oder Mobilgeräten, würden so als Angriff, und die rein unkorrelierte Bewegung als echte Person klassifiziert werden. Diese Methoden erfordern ein gewisses Mindestmaß an Nutzerbewegung, um effektiv zu sein.
Ein weiterer Ansatz setzt auf den Fokus der Kamera. Durch leichtes Verschieben der Fokusdistanz am erkannten Gesicht vorbei, kann durch Änderung der Pixelwerte zum fokussierten Bild ein Tiefenprofil erstellt werden. Die Genauigkeit hängt dabei von der Größe des Fokusbereichs der Kamera, und damit von dessen Blende, Brennweite und Sensorgröße ab. Bei dieser Methode wird zudem davon ausgegangen, dass zwischen den beiden Bildern keine wesentliche Bewegung in der Szene stattgefunden hat.
Diese Methoden wären jedoch nur bedingt oder überhaupt nicht in der Lage, Level-C-Angriffe mittels Masken erfolgreich abzuwehren. Hierfür existieren mittlerweile Methoden, die den menschlichen Herzschlag über die leichten Farbänderungen in kurzen Bildabfolgen einer RGB-Kamera ermitteln können. Die Nachteile dieser Methode sind der negative Einfluss von Bewegung, sowie der etwa fünfsekündige Betrachtungszeitraum den das System mindestens benötigt.
Presentation Attack Detection
Die vorgestellten Methoden haben alle verschiedene Vor- und Nachteile. Es ist daher naheliegend verschiedene Ansätze dynamischer sowie statischer Analyse parallel einzusetzen, um in allen Situationen hinreichende Sicherheit und Nutzbarkeit bieten zu können. Da die Gesichtserkennung und das Presentation Attack Detection-System in der Regel parallel laufen können, ist es üblich die Ergebnisse beider Systeme in der Entscheidung über die Echtheit des Authentifizierungsversuchs zu vereinigen, was die Genauigkeit weiter verbessern kann. Dass in der Praxis ein rein kamerabasiertes System ausreichend gegen Angriffe gesichert werden kann, wurde von Google demonstriert: Das ‚Face Unlock‘ des Google Pixel 8 (Pro) genügt der höchsten biometrischen Sicherheitsklasse in Android und Nutzer können sich damit in Banking Apps authentifizieren.

Level-A PAD-System nur mit Face Detector
In der Praxis muss nicht zwangsläufig jeder Anwendungsfall für Gesichtserkennung gleichermaßen sicherheitskritisch sein. Da sich Zeiterfassungssysteme meistens in zugangsbeschränkten Bereichen befinden, sollten sie etwa gegen einfache Täuschungsversuche auf Level A, beispielsweise durch Schabernack treibende Arbeitskollegen, gewappnet sein.
Mit Embedded Hardware gegensteuern
Ein Experiment soll das Potenzial von Embedded-Hardware für Gegenmaßnahme aufzeigen: Der für die Erkennung und das Alignment der Gesichter bereits benötigte Face Detector erkennt mehrere Schlüsselpunkte, wie Augen, Nase, Mund und Ohren. Das verwendete BlazeFace-Modell zur Gesichtserkennung ist also bereits dazu fähig, die Lage des Kopfes im dreidimensionalen Raum hinter der zweidimensionalen Projektionsebene des Kamerabilds zu ermitteln. Diese Information kann in einem PAD-System genutzt werden, um festzustellen, ob sich das erkannte Objekt im Raum bewegt wie ein echter Kopf oder nur wie ein zweidimensionales Abbild. Die Grundidee ähnelt der beschriebenen auf Optical Flow basierenden Methode.
Im obigen Bild (S. 62) gezeigten Beispiel wurde der virtuelle Punkt zwischen den Ohren und der Nasenspitze verwendet, um die Lage des Kopfes im Raum zu visualisieren. Da der reale Abstand zwischen Nasenspitze und Mittelpunkt beider Ohren eine bekannte konstante Größe ist, kann mithilfe trigonometrischer Funktionen der relative Lagewinkel des Kopfes zur Projektionsebene berechnet werden. Durch gezieltes Drehen des Handyfotos wird das dargestellte Gesicht zwar verzerrt, der errechnete Lagewinkel des Kopfes wird dadurch jedoch nur unwesentlich verändert. Aufgrund der leichten Fehlerkennungen des BlazeFace-Modells durch die Verzerrung treten dabei relative Winkeldifferenzen von weniger als 10° auf. Bei einem echten Kopf sind meist schon innerhalb eines kurzen Zeitraums Unterschiede von über 20° zu beobachten, die unaufgefordert durch natürliche Bewegungen entstehen.
Diese Methode bietet einen effektiven Schutz gegen einfache Foto-Angriffe, wie in Level A nach FIDO definiert. Mehr als Level A ist damit aber in keinem Fall möglich, da sich dieses System durch eine Videoaufnahme täuschen lässt. Da jedoch lediglich das bereits implementierte BlazeFace-Modell genutzt wird, ist die zusätzlich benötigte Rechenleistung geringer, besonders im Vergleich zum hohen Rechenaufwand den die Optical Flow-Methode verursachen würde.
Fazit und Ausblick
Die Entwicklung eines auf Gesichtserkennung basierenden Zutrittskontroll- oder Zeiterfassungssystems ist mit überschaubaren Ressourcen realisierbar, wobei der Aufwand im Wesentlichen vom gewünschten Sicherheitsniveau abhängt. Sobald ein höheres Sicherheitsniveau erreicht werden soll, gilt es, entsprechend mehr Aufwand in die Presentation Attack Detection zu investieren. Da Angreifer potenziell ständig neue Methoden entwickeln, um die gängigen Methoden zu umgehen, muss das System im laufenden Betrieb mit Software-Updates aktualisierbar sein, um ausreichend gewappnet zu sein.






































