近年來,人臉辨識相關應用已蓬勃發展。除了每天都會用到的手機解鎖外,辦公室或工廠廠區門禁、大樓公寓的電子鎖,甚至是零售、金融客戶體驗優化等,也都是人臉辨識的常見應用。本篇文章我們將為您深度探討人臉辨識的原理、如何在各式應用場景與邊緣裝置中進行優化、相關的技術細節說明,以及各式深具潛力的人臉辨識應用。
立即閱讀《人臉辨識應用最新趨勢,5 大領域一次了解!》,發掘更多 FaceMe 真實應用案例!
人臉辨識(或臉部辨識,Facial Recognition),是生物辨識技術的一種,人臉辨識原理係以電腦視覺技術將人臉影像轉換並擷取人臉特徵值,再與事先登錄於資料庫中的特徵值比對,若兩特徵值相似度高於預先設定的閾值時則辨識為同一人。人臉辨識系統應用通常分為 1:1 與 1:N 兩種:驗證是否為本人持有證件(1:1),或者,自資料庫中,辨識出目標人物的身分(1:N)。近年來,新世代的人臉辨識採用的是深度神經網路(DNN, Deep Neural Network)技術,大幅提升辨識正確率,對於且針對人臉的各種變化(例如臉部被遮蔽)有更高的適應性。人臉辨識因而受益於此,大幅落地於各種應用中。
人臉偵測為人臉辨識的第一步驟,透過深度學習電腦視覺演算法,將畫面中有包含人臉的區域精準框出。並標出人臉五官位置。
FaceMe 的人臉偵測技術,即便僅局部的人臉出現於畫面之中,仍可於影像或影片中精準偵測及框列人臉位置。並可迅速於 5 毫秒內將同一畫面中的多張人臉全部偵測出來。
此步驟由另一深度神經網路模型(簡稱:AI 模型)負責,將已框列出的人臉區域,轉換為一個高維空間中的向量數值,也就是所謂的人臉特徵值。因其為向量的特性,故可由計算兩向量之間的距離來得到兩個特徵值之間的相似度。此 AI 模型的任務就是將屬於同一人的特徵值,於空間值域中盡可能納入靠近的空間中,而不屬同一人的人臉則需要盡量區隔開來。AI 模型訓練過程中,透過極大量的訓練資料(千萬以上等級),還有 AI 模型中的超大數量的參數數量(數億乃至數十億以上),以及特徵值的極高向量維度(1024 以上維度),讓 AI 模型得以於訓練過程中,自行學習如何準確的分析人臉部的特徵,藉以將人臉分類、分布於超高維度的空間之中。其訓練過程,往往需要幾百至幾千個 GPU 小時,且需要往復調整與最佳化諸多模型參數、訓練設定等。屬極端困難的工作任務。
經由計算兩個特徵值的相似度,並將該相似度與預先定義的閾值比較後,則可判定兩張人臉是否屬於同一人。在 eKYC 的情境中,人證比對是指比對證件上的人臉與鏡頭前的人臉是否屬於同一人,藉以完成驗證的過程,屬於 1:1 人臉比對的一種應用。
此外,如果將畫面中出現的人臉之特徵值與資料庫中預先登入的多個人臉特徵值進行搜尋,則為 1:N 人臉辨識。一般門禁、差勤系統的應用均屬此類。除了與將所有特徵值逐一比對的方法以外,FaceMe 更進一步提供快速搜尋演算法,可以大幅減少所需比對次數,藉此大幅加速辨識速度。
比對與搜尋的過程中,只需要特徵值即可運作,因此可以避免需要將人臉影像儲存於資料庫中。此外,FaceMe 進一步將特徵值以 AES-256 加密,亦可搭配硬體安全模組(HSM)加密,更可確保資料的安全性與隱密性。
人臉辨識技術除了常見的人臉偵測及身分比對外,亦包含了人臉防偽(活體辨識)、深偽偵測、口罩偵測等多種技術。
常見的人臉辨識破解方式包含使用人臉照片或影片進行破解及身分冒用,也因此,活體辨識於人臉辨識應用至關重要。
什麼是活體辨識? 活體辨識指的是透過電腦視覺演算法,分辨被辨識者是否為真人,進而達到預防用戶身分被盜用的情形發生。
活體辨識可依據相機模組的不同而分類如下:
使用 2D 相機進行活體辨識
2D 相機(如:webcam 或一般手機前鏡頭)可透過互動或非互動方式進行活體辨識,互動方式係透過頭部指令(如:點頭、搖頭)或臉部表情(如:眨眼、張嘴)進行活體判別。而非互動方式係透過深度學習演算法,分析鏡頭前的人臉影像,藉光影變化、鏡頭移動時的幾何變化、皮下特徵、臉部細微動作等,進行真偽判別。因 2D 活體辨識不需要特殊的相機模組,導入成本較低也較容易普及,適合 eKYC 的使用情境。
在 2022 年FaceMe SDK 通過符合 ISO/IEC 30107-3 標準進行的 PAD(Presentation Attack Detection,活體冒用攻擊)測試,獲得 iBeta PAD Level 2 認證。爾後更於 2023 年美國國家標準與技術研究所(NIST)最新人臉分析技術評估(FATE,Face Analysis Technology Evaluation)的活體冒用攻擊檢測(PAD)中表現卓越,並且在以影片為輸入形式的便利性測試類別中,從全球 82 個人臉辨識演算法中脫穎而出,取得全球排名第一的佳績。
使用 3D 景深相機進行活體辨識
當使用 3D 景深相機時,演算法可分析鏡頭前的人臉影像與深度圖,阻擋大部分的平面式攻擊,如:列印之人臉相片或透過螢幕播放人臉影片等。因此,3D 活體辨識相較 2D 活體辨識,更快速、直覺。然而,3D 相機所需成本也較高。FaceMe 可支援的 3D 景深相機包括:Intel RealSense™、iPad 及 iPhone 上的 3D 結構光相機、奇景光電(Himax)等。
iPhone 的 Face ID 人臉辨識原理,即是結合了 3D 結構光相機以及紅外線相機,對人臉的深度圖與紅外線相機(IR)模組進行採樣,再利用 Apple 所訓練出的人臉辨識演算法與活體辨識演算法,來辨識鏡頭前的人是否為本人,而非照片、影片或 3D 面具。
使用 IR+RGB 相機模組進行活體辨識
IR+RGB 相機模組為目前普遍於人臉辨識門禁、差勤機器、及微軟的 Windows Hello 所採用。IR+RGB 相機模組是指一個包含兩個光學鏡頭的相機模組,其中一個鏡頭接收可見光(RGB),另一個接收紅外線(IR)。因相紙、手機平版螢幕有著吸收或過濾紅外光線的特性,因此可有效阻止這一類的攻擊。IR+RGB 相機相較 3D 景深相機具很高的成本優勢,且可取得接近於 3D 景深的辨識速度與準確度,因此 IR+RGB 相機模組廣泛的被採用。
深偽技術(或稱深偽,Deepfake),是一種生成式 AI 的技術,目的是偽造目標人的影像或影片,偽造出目標人物未曾說過的話、動作或表情等,藉以進行欺騙或造假。若於 eKYC 或登入的人臉辨識情境中,則可藉此冒用目標人物的身分。
當駭客使用深偽攻擊時,若使用螢幕播放深偽產生的影片或即時視訊,FaceMe 的防偽偵測,不論是 2D、3D、或 IR+RGB 防偽均能夠成功阻擋。然而,若駭客將深偽結合相機訊號植入式攻擊,將得以繞過防偽偵測。此時,就需要搭配 FaceMe 全新推出的深偽偵測功能,藉此阻擋駭客使用深偽技術所進行的各種冒用攻擊,確保 eKYC、登入、交易等流程的資訊安全。
戴口罩之人臉辨識能快速完成身分驗證,且同步提升門禁安全管理的效率。FaceMe 支援在口罩配戴下,仍能精準辨識出人員身分,正確辨識率高達 98.21%。
日本豐田汽車(Toyota)為了加強車輛檢驗的品質,於其車輛檢驗系統導入人臉辨識技術,操作人員在配戴眼鏡、頭盔等護具的情況下,仍能透過刷臉快速完成身分驗證,進而提供車輛品管服務給客戶。
人臉辨識的準確度指標可由低的誤拒率(FNMR, False Non-match Rate)及極低的誤認率(FMR, False Match Rate)來比較。誤認率(FMR)表示將人物誤認為他人,而誤拒率(FNMR)代表無法比對出兩張屬於同一個人的臉孔。
3 大影響人臉辨識精準度的因素包含:
其中第一點人臉辨識引擎的能力是最至關重要的,如何評估不同辨識引擎之間的能力,則需要嚴謹的測試方法與大量的測試資料,以美國國家標準暨技術研究院(NIST, National Institution of Standards and Technology)的人臉辨識技術評估(FRTE, Face Recognition Technology Evaluation)為例,該機構透過一套標準化指標、執行環境以及 API 規格等,評比各種人臉辨識演算法。NIST FRTE 資料集涵蓋各種人臉影像類型,並且資料量級在各類型均高達百萬等級。
FaceMe 於全球知名 NIST FRTE 1:1 和 1:N 測試中均名列前茅, 在 VISA-Border 1:1 照片測試中,於百萬分之一誤認率下達到 99.83%之正確辨識率。智慧型手機上的 Face ID 提供約 96% 辨識率與百萬分之一誤認率,Windows 系統的 Windows Hello 則為 95% 辨識率與十萬分之一的誤認率,可知 FaceMe 提供的是更精準、更可靠的人臉辨識演算法。
人臉辨識的優點很多,最關鍵的五項為:
您可進一步了解其他人臉辨識優缺點。
人臉辨識系統的建置類型可分為「雲端人臉辨識服務」(如:AWS)、「地端人臉辨識系統」及「邊緣裝置人臉辨識」三大類。各類型都各有其優勢。邊緣裝置人臉辨識透過軟體形式建置於邊緣裝置上,因無需等待人臉影像上傳至雲端的時間,可以提供即時的人臉偵測及辨識,於辨識率上也有極佳表現。基於邊緣裝置的人臉辨識應用,人臉偵測、特徵值擷取,甚至人臉比對的過程都是使用邊緣裝置上的運算能力。因此與雲端人臉辨識相比,少了資料上傳與比對結果回傳的步驟,辨識時間遠小於雲端人臉辨識,通常只需要在幾微秒間即可完成。iPhone 人臉辨識(Face ID),就是完全基於邊緣裝置運算與比對,因此可以確保良好的使用者體驗。也可以省下伺服器的建置費用。
近年來,AI 邊緣裝置的運算能力大幅提升,讓人臉辨識的應用可以實現在各式應用場景中,如:智慧門鎖、行動裝置、銷售時點系統(POS, Point-of-sales)、互動式資訊站(KIOSK)及電子看板等。
訊連科技的 FaceMe AI 人臉辨識引擎即是一款專為邊緣裝置開發的人臉辨識 SDK(Software Development Kit),可彈性整合在各式邊緣運算裝置上,並可廣泛支援各式晶片及作業系統,在全球知名的 NIST FRTE 人臉辨識技術評估報告中表現亮眼。FaceMe 可彈性建置於各式物聯網應用場景中,提供安全、可靠、高辨識率的人臉辨識方案。
要將人臉辨識應用建置於邊緣設備上,有幾項需要考量的因素,以下分別以晶片、作業系統、與 AI 模型的議題介紹:
建置人臉辨識邊緣設備時,因應不同的應用場景與情境來選擇適合的晶片是相當重要的一環,選擇結果也會影響到成本與效能。晶片的選擇共分以下幾類:
ARM 系列的 SoC
ARM 架構的單晶片系統(System-on-chip, SoC),具備低功耗、低發熱等特性,可滿足絕大部分輕量化的 AIoT 設備需求。
聯發科(MediaTek)、高通(Qualcomm)或是恩智浦(NXP)等晶片大廠掌握了邊緣 AI 運算先機,將新的 APU(AI Processing Unit)或 NPU(Neural Processing Unit)加入 ARM 架構的 SOC 之中,加快 AI 運算速度,並同時優化效能與降低功耗,是邊緣裝置導入人臉辨識的首選。
您可進一步了解如何打造基於 ARM 架構的高效人臉辨識系統。
NVIDIA GPU
GPU 擁有出色的效能表現,因此可以執行較為龐大、運算需求較大的 AI 模型。NVIDIA GPU 適合地端人臉辨識系統,其運算能力可在安控場景中,同時處理上百路攝影機之視訊,可減少於大型場域安控應用中所需的工作站數量,大幅降低成本。
Intel CPU / NUC
Intel CPU 因上下游供應鏈非常完整與成熟,若您想直接採購已完成的電腦,可以購買 Intel NUC 系列電腦,此系列產品同時兼具體積與耗電考量,並且透過 Intel OpenVINO 的神經網路加速功能,可以很有效率的於邊緣裝置運行人臉辨識演算法。若您有工業環境使用、或其他特規需求需求,亦可參考採用 Intel CPU 的工業電腦。
各種晶片均有其對應的作業系統(Operating System),一個好的人臉辨識引擎應需支援多種晶片與作業系統的組合。讓客戶導入人臉辨識時,可以更不受限的依據實際場域的其他需求來設計。
訊連科技 FaceMe 支援各種作業系統,提供多種跨平台的解決方案,支援10種以上的作業系統與晶片的組合:
除作業系統與晶片的組合外,FaceMe 更可選擇開啟硬體加速運算功能,於 NVIDIA CUDA™、cuDNN、TensorRT、NVIDIA Jetson、Intel OpenVINO™、MediaTek NeuroPilot、NXP NPU、Ambarella CVFlow、Qualcomm SNPE(GPU/DSP)等,加速 FaceMe 深度學習演算法的運算速度。
人臉辨識的應用場景相當廣泛,在不同的應用情境下,硬體成本、拍攝角度、辨識準確度等均有不同的考量,因此好的人臉辨識廠商要能提供不同的辨識模型搭配場景以及硬體使用。像是某些僅需要正臉的應用場景,如智慧門鎖,僅需使用較輕量型的人臉辨識模型,即可在較低成本的設備上導入人臉辨識。
FaceMe 提供三種辨識模型以滿足各種應用、準確度以及成本控制需求。歡迎來信洽詢辨識模型資訊,以獲取更客製化且專業的導入建議!
目前,人臉辨識因為其準確度高及客戶體驗佳,已於許多產業及場景落地。接下來的章節我們將介紹更多應用案例,並重點說明每個案例的關鍵事項。
主要的應用案例可分為以下幾大類別:
想了解更多應用案例,歡迎閱讀人臉辨識應用最新趨勢,5 大領域一次了解!【2025】。
本文詳細介紹了 AI 人臉辨識原理、人臉辨識系統建置考量、於邊緣裝置採用人臉辨識的設計參考,以及實際導入應用。
人臉辨識極具市場潛力,軟硬體技術的成熟也加速人臉辨識崛起。企業能因此大幅提高效率、改善用戶體驗,然而伴之而來的,是商業及公領域更全面、嚴謹的監管規範及使用者教育,以撇除大眾疑慮,讓消費者能夠接納並使用這種新興的 AI 生物辨識技術。