Gesichtserkennung mit KI (Teil 1)


Die Gesichtserkennung unterscheidet zwei verschiedene Fälle der Erkennung:
1.) Ob und wenn ja, wo ein Gesicht zu erkennen ist (z. B. im Bildsucher der Kamera, mit Rahmen markiert), 2.) um welche Person es sich handelt. Die forensische und ebenso die kriminalistische und sicherheitstechnische Gesichtserkennung fokussiert sich zum Zweck der Identifikation oder Verifikation (Authentifizierung) auf natürliche Personen.

Während ein Erkennen von Personen durch einen anderen Menschen als face perception bezeichnet wird, wird bei einer Gesichtserkennung durch Maschinen von face recognition gesprochen.

Das Verfahren (Deep Learning)

Wird von der Zuordnung der Person gesprochen, handelt es sich im forensischen Sinne um eine Identifikation und Verifikation, um eine Authentifizierung von Personen. Im Gegensatz dazu ist die Gesichtsdetektion abzugrenzen, die nur eine Lokalisierung eines Gesichtes im Bild / Videobild vornimmt.
Die in technischem Zusammenhang stehende Gesichtserkennung zählt zu den biometrischen, KI-basierten und automatisierten Diagnoseverfahren, mit der die Zuordnung zu Personen gelingt. Die Gesichtserkennung basiert dabei auf mathematischen Verfahren zur Mustererkennung und maschinellem Lernen. Deep Neural Networks (DNN) stellen den Stand der Technik bei der Analyse von Bildern dar und sind die technologische Basis des Erkennungs­verfahrens. Neuronale Netze werden mit großen Daten­mengen für eine optimale Kombination aus Erkennungsleistung und Geschwindigkeit trainiert und evaluiert.

Gesichtsmerkmale

Zu den typischen Gesichtsmerkmalen zählen in der retrospektiven Video- und Bildanalyse anthropologische Merkmale wie Augenabstand, Augenringe, Ohren, Nase, Mund, Augenbrauen, Stirn, Kinn, Philtrum und andere einzigartige Merkmale. Ergänzend zur klassischen Identifikation kann eine Alters- und Geschlechtsbestimmung von Personen anhand ihres Gesichts geschätzt werden. Z. B. können damit Statistiken über die demografische Struktur von Kundengruppen gebildet oder Suchanfragen nach diesen Merkmalen gestartet werden (“Soft-Biometrie”). Mit erweiterten Gesichtsmerkmalen kann zudem nach Attributen wie Brille, Maske, Kopfbedeckung, Bart, Ohrringe, Mimik (z. B. Lächeln), Lippenstift etc. gesucht werden. Damit lassen sich Personen anhand von Beschreibungen finden oder es kann z. B. das Tragen einer Maske überprüft werden.
In der Personen- und Objekterkennung werden Personen als Ganzes erkannt. Menschen können detektiert werden, die nur teilweise im Bild oder nur von hinten sichtbar sind. Mit einer Objekterkennung werden verschiedene Arten von Gegenständen im Bild- und Videomaterial identifiziert (z. B. Fahrzeuge, Kfz-Kennzeichen, Gepäckstücke, Kleidung).

Den Gesichtsmerkmalen werden sog. Gesichtslandmarken, insb. die Frontallandmarken eines Gesichtes zugeordnet. Mithilfe dieser Landmarken und eines adaptiven 3D-Gesichtsmodells können Gesichtsform und Identität bestimmt und zugeordnet werden.
Gesichtsmerkmale und GesichtsqualitätGesichtsmerkmale und Gesichtsqualität

Landmarken der Gesichtsanalyse

Erkennungsleistung mit hoher Effizienz

Die Erkennungsleistung erfolgt in zwei Schritten: 1.) Die Gesichtsdetektion findet zuverlässig Gesichter in Bildern und Videos. Dies funktioniert i.d.R. auch bei ungünstiger Beleuchtung, Drehungen, Verdeckung oder schlechter Videoqualität. In Videos werden Gesichter von Bild zu Bild verfolgt und bilden zusammenhängende Tracks. Dies erhöht die Aussagekraft bei der Erkennung. 2.) Für eine Gesichtserkennung werden Templates gebildet, die die individuellen Eigenschaften des jeweiligen Gesichts (Gesichtsmerkmale) repräsentieren. Diese Templates werden mit Referenz-Templates von gesuchten Identitäten (Profilen) verglichen. Ein Aufbau von Identitäten (“Enrollment”) aus mehreren Referenz-Templates führt zu besseren Erkennungsraten als in einem Einzelvergleich.
Das KI-basierte Diagnoseverfahren zur Gesichtserkennung ist in der Lage, sehr viele Gesichtsmerkmale gleichzeitig zu erfassen und einer Identität zuzuordnen, bzw. diese Identität zu erstellen, anhand derer jederzeit weitere Merkmale trainiert werden können (dynamische Erweiterung).

Die Technologie der Gesichtserkennung hat sich stark weiterentwickelt. Gesichtserkennungen sind unter gewissen Bedingungen bereits ab 4 Pixel Augenabstand möglich. Asymmetrische Formen wurden in der Erkennungsleistung besser angepasst. Menschen, die sich mit Schminke asymmetrische Formen auf das Gesicht malen, um Erkennungen zu umgehen, können besser erkannt werden, Asymmetrien besser ignoriert werden. Bessere Erkennungsleistungen gibt es bei geringeren Kontrasten, z. B. bei Schwarzweiß- oder kontrastarmen Bildern.

Teil 2 beschreibt, welche Ausgangsmaterialien erforderlich sind, wie Analysedaten verarbeitet und Gesetzmäßigkeiten in den Trainingsdaten erkannt werden können. Eine sehr hohe Sorgfalt bei der Auswahl der Bilder stellt eine hohe Gesichtsqualität sicher. Es werden Qualitätskriterien für optimale Bildvergleiche aufgestellt. Im forensischen Gutachten wird der Grad der Ähnlichkeit einer Identität durch eine Wahrscheinlichkeitsaussage ausgedrückt. Es werden Einsatzgebiete der Gesichts- und Personen- und Objekterkennung benannt.

Forensik-Labor Digital Forensics Dr. Braun