目标

在本教程中，

我们将学习 Haar 级联目标检测的工作原理。
我们将了解使用基于 Haar 特征的级联分类器进行人脸检测和眼睛检测的基础知识。
我们将使用 cv::CascadeClassifier 类来检测视频流中的物体。特别是，我们将使用以下函数
- cv::CascadeClassifier::load 加载 .xml 分类器文件。它可以是 Haar 或 LBP 分类器。
- cv::CascadeClassifier::detectMultiScale 执行检测。

理论

使用基于 Haar 特征的级联分类器进行目标检测是一种有效的方法，由 Paul Viola 和 Michael Jones 在 2001 年的论文“使用简单特征的增强级联进行快速目标检测”中提出。它是一种基于机器学习的方法，其中级联函数从大量的正负样本图像中进行训练。然后用于检测其他图像中的物体。

这里我们将进行人脸检测。最初，该算法需要大量正样本图像（人脸图像）和负样本图像（无脸图像）来训练分类器。然后我们需要从中提取特征。为此，使用下图所示的 Haar 特征。它们就像我们的卷积核。每个特征都是通过从黑色矩形下的像素总和中减去白色矩形下的像素总和而获得的单个值。

image

现在，每个核的所有可能的尺寸和位置都用于计算大量特征。（想象一下需要多少计算？即使是 24x24 的窗口也会产生超过 160000 个特征）。对于每个特征计算，我们需要找到白色和黑色矩形下像素的总和。为了解决这个问题，他们引入了积分图像。无论你的图像有多大，它都会将给定像素的计算简化为只涉及四个像素的操作。很不错，不是吗？它使事情变得超级快。

但是，在我们计算的所有这些特征中，大多数是无关紧要的。例如，考虑下面的图像。顶行显示了两个好的特征。第一个选择的特征似乎专注于眼睛区域通常比鼻子和脸颊区域更暗的属性。第二个选择的特征依赖于眼睛比鼻梁更暗的属性。但是，相同的窗口应用于脸颊或任何其他地方都是无关紧要的。那么我们如何从 160000 多个特征中选择最佳特征呢？这是通过 Adaboost 实现的。

image

为此，我们将每个特征应用于所有训练图像。对于每个特征，它都会找到最好的阈值，该阈值将人脸分类为正负样本。显然，会有错误或误分类。我们选择误差率最低的特征，这意味着它们是能够最准确地对人脸和非人脸图像进行分类的特征。（该过程并不像看起来那么简单。最初，每个图像都赋予相同的权重。在每次分类之后，误分类图像的权重都会增加。然后重复相同的过程。计算新的误差率。以及新的权重。该过程持续进行，直到达到所需的精度或误差率，或者找到所需的特征数量）。

最终分类器是这些弱分类器的加权总和。它被称为弱，因为它本身无法对图像进行分类，但与其他分类器一起构成一个强分类器。论文中提到，即使只有 200 个特征也能提供 95% 精度的检测。他们最终的设置大约有 6000 个特征。（想象一下从 160000 多个特征减少到 6000 个特征。这是一个巨大的进步）。

所以现在你拿着一张图像。取每个 24x24 的窗口。将 6000 个特征应用于它。检查它是否是人脸。哇.. 这不是很低效和耗时吗？是的，确实如此。作者对此有一个很好的解决方案。

在图像中，大部分图像都是非人脸区域。所以，最好有一个简单的方法来检查窗口是否不是人脸区域。如果不是，则立即丢弃它，不再处理它。相反，专注于可能存在人脸的区域。这样，我们就可以花更多时间检查可能的人脸区域。

为此，他们引入了 级联分类器 的概念。而不是将所有 6000 个特征应用于一个窗口，这些特征被分组到不同的分类器阶段，并逐个应用。（通常，前几个阶段将包含更少的特征）。如果窗口未通过第一阶段，则丢弃它。我们不考虑它剩下的特征。如果它通过了，则应用第二阶段的特征，并继续该过程。通过所有阶段的窗口都是人脸区域。多么好的计划！

作者的探测器具有 6000 多个特征，有 38 个阶段，前五个阶段分别有 1、10、25、25 和 50 个特征。（上图中的两个特征实际上是从 Adaboost 中获得的最佳两个特征）。据作者所说，平均每个子窗口会评估 6000 多个特征中的 10 个特征。

所以这是一个关于 Viola-Jones 人脸检测如何工作的简单直观的解释。阅读论文以获取更多详细信息，或查看“附加资源”部分中的参考文献。

OpenCV 中的 Haar 级联检测

OpenCV 提供了一种训练方法（见级联分类器训练）或预训练模型，可以使用 cv::CascadeClassifier::load 方法读取。预训练模型位于 OpenCV 安装中的 data 文件夹中，或者可以在此处找到。

以下代码示例将使用预训练的 Haar 级联模型来检测图像中的人脸和眼睛。首先，创建一个 cv::CascadeClassifier，并使用 cv::CascadeClassifier::load 方法加载必要的 XML 文件。之后，使用 cv::CascadeClassifier::detectMultiScale 方法进行检测，该方法会返回检测到的人脸或眼睛的边界矩形。

本教程代码的代码如下所示。您也可以从此处下载。

#include "opencv2/objdetect.hpp"
#include "opencv2/highgui.hpp"
#include "opencv2/imgproc.hpp"
#include "opencv2/videoio.hpp"
#include <iostream>
 
using namespace std;
using namespace cv;
 
void detectAndDisplay( Mat frame );
 
CascadeClassifier face_cascade;
CascadeClassifier eyes_cascade;
 
int main( int argc, const char** argv )
{
    CommandLineParser parser(argc, argv,
                             "{help h||}"
                             "{face_cascade|data/haarcascades/haarcascade_frontalface_alt.xml|人脸级联路径。}"
                             "{eyes_cascade|data/haarcascades/haarcascade_eye_tree_eyeglasses.xml|眼睛级联路径。}"
                             "{camera|0|摄像头设备编号。}");
 
parser.about( "\n此程序演示如何使用 cv::CascadeClassifier 类在视频流中检测物体（人脸 + 眼睛）。\n"
                  "您可以使用 Haar 或 LBP 特征。\n\n" );
parser.printMessage();
 
    String face_cascade_name = samples::findFile( parser.get<String>("face_cascade") );
    String eyes_cascade_name = samples::findFile( parser.get<String>("eyes_cascade") );
 
    //-- 1. 加载级联
    if( !face_cascade.load( face_cascade_name ) )
    {
cout << "--(!)Error loading face cascade\n";
        return -1;
    };
    if( !eyes_cascade.load( eyes_cascade_name ) )
    {
cout << "--(!)Error loading eyes cascade\n";
        return -1;
    };
 
    int camera_device = parser.get<int>("camera");
    VideoCapture capture;
    //-- 2. 读取视频流
capture.open( camera_device );
    if ( ! capture.isOpened() )
    {
cout << "--(!)Error opening video capture\n";
        return -1;
    }
 
    Mat frame;
    while ( capture.read(frame) )
    {
        if( frame.empty() )
        {
cout << "--(!) No captured frame -- Break!\n";
            break;
        }
 
        //-- 3. 将分类器应用于帧
detectAndDisplay( frame );
 
        if( waitKey(10) == 27 )
        {
            break; // escape
        }
    }
    return 0;
}
 
void detectAndDisplay( Mat frame )
{
    Mat frame_gray;
    cvtColor( frame, frame_gray, COLOR_BGR2GRAY );
    equalizeHist( frame_gray, frame_gray );
 
    //-- 检测人脸
std::vector<Rect> faces;
face_cascade.detectMultiScale( frame_gray, faces );
 
    for ( size_t i = 0; i < faces.size(); i++ )
    {
        Point center( faces[i].x + faces[i].width/2, faces[i].y + faces[i].height/2 );
        ellipse( frame, center, Size( faces[i].width/2, faces[i].height/2 ), 0, 0, 360, Scalar( 255, 0, 255 ), 4 );
 
        Mat faceROI = frame_gray( faces[i] );
 
        //-- 在每张脸上检测眼睛
std::vector<Rect> eyes;
eyes_cascade.detectMultiScale( faceROI, eyes );
 
        for ( size_t j = 0; j < eyes.size(); j++ )
        {
            Point eye_center( faces[i].x + eyes[j].x + eyes[j].width/2, faces[i].y + eyes[j].y + eyes[j].height/2 );
            int radius = cvRound( (eyes[j].width + eyes[j].height)*0.25 );
            circle( frame, eye_center, radius, Scalar( 255, 0, 0 ), 4 );
        }
    }
 
    //-- Show what you got
    imshow( "Capture - Face detection", frame );
}

本教程代码的代码行如下所示。您也可以从这里下载它

import java.util.List;
 
import org.opencv.core.Core;
import org.opencv.core.Mat;
import org.opencv.core.MatOfRect;
import org.opencv.core.Point;
import org.opencv.core.Rect;
import org.opencv.core.Scalar;
import org.opencv.core.Size;
import org.opencv.highgui.HighGui;
import org.opencv.imgproc.Imgproc;
import org.opencv.objdetect.CascadeClassifier;
import org.opencv.videoio.VideoCapture;
 
class ObjectDetection {
    public void detectAndDisplay(Mat frame, CascadeClassifier faceCascade, CascadeClassifier eyesCascade) {
Mat frameGray = new Mat();
Imgproc.cvtColor(frame, frameGray, Imgproc.COLOR_BGR2GRAY);
Imgproc.equalizeHist(frameGray, frameGray);
 
        // -- Detect faces
MatOfRect faces = new MatOfRect();
faceCascade.detectMultiScale(frameGray, faces);
 
List<Rect> listOfFaces = faces.toList();
        for (Rect face : listOfFaces) {
Point center = new Point(face.x + face.width / 2, face.y + face.height / 2);
Imgproc.ellipse(frame, center, new Size(face.width / 2, face.height / 2), 0, 0, 360,
                    new Scalar(255, 0, 255));
 
Mat faceROI = frameGray.submat(face);
 
            // -- In each face, detect eyes
MatOfRect eyes = new MatOfRect();
eyesCascade.detectMultiScale(faceROI, eyes);
 
List<Rect> listOfEyes = eyes.toList();
            for (Rect eye : listOfEyes) {
Point eyeCenter = new Point(face.x + eye.x + eye.width / 2, face.y + eye.y + eye.height / 2);
                int radius = (int) Math.round((eye.width + eye.height) * 0.25);
Imgproc.circle(frame, eyeCenter, radius, new Scalar(255, 0, 0), 4);
            }
        }
 
        //-- Show what you got
HighGui.imshow("Capture - Face detection", frame );
    }
 
    public void run(String[] args) {
String filenameFaceCascade = args.length > 2 ? args[0] : "../../data/haarcascades/haarcascade_frontalface_alt.xml";
String filenameEyesCascade = args.length > 2 ? args[1] : "../../data/haarcascades/haarcascade_eye_tree_eyeglasses.xml";
        int cameraDevice = args.length > 2 ? Integer.parseInt(args[2]) : 0;
 
CascadeClassifier faceCascade = new CascadeClassifier();
CascadeClassifier eyesCascade = new CascadeClassifier();
 
        if (!faceCascade.load(filenameFaceCascade)) {
System.err.println("--(!)Error loading face cascade: " + filenameFaceCascade);
System.exit(0);
        }
        if (!eyesCascade.load(filenameEyesCascade)) {
System.err.println("--(!)Error loading eyes cascade: " + filenameEyesCascade);
System.exit(0);
        }
 
VideoCapture capture = new VideoCapture(cameraDevice);
        if (!capture.isOpened()) {
System.err.println("--(!)Error opening video capture");
System.exit(0);
        }
 
Mat frame = new Mat();
        while (capture.read(frame)) {
            if (frame.empty()) {
System.err.println("--(!) No captured frame -- Break!");
                break;
            }
 
            //-- 3. 将分类器应用于帧
detectAndDisplay(frame, faceCascade, eyesCascade);
 
            if (HighGui.waitKey(10) == 27) {
                break;// escape
            }
        }
 
System.exit(0);
    }
}
 
public class ObjectDetectionDemo {
    public static void main(String[] args) {
        // Load the native OpenCV library
System.loadLibrary(Core.NATIVE_LIBRARY_NAME);
 
        new ObjectDetection().run(args);
    }
}

本教程代码的代码行如下所示。您也可以从这里下载它

from __future__ import print_function
import cv2 as cv
import argparse
 
def detectAndDisplay(frame)
frame_gray = cv.cvtColor(frame, cv.COLOR_BGR2GRAY)
frame_gray = cv.equalizeHist(frame_gray)
 
    #-- Detect faces
faces = face_cascade.detectMultiScale(frame_gray)
    for (x,y,w,h) in faces
center = (x + w//2, y + h//2)
frame = cv.ellipse(frame, center, (w//2, h//2), 0, 0, 360, (255, 0, 255), 4)
 
faceROI = frame_gray[y:y+h,x:x+w]
        #-- In each face, detect eyes
eyes = eyes_cascade.detectMultiScale(faceROI)
        for (x2,y2,w2,h2) in eyes
eye_center = (x + x2 + w2//2, y + y2 + h2//2)
radius = int(round((w2 + h2)*0.25))
frame = cv.circle(frame, eye_center, radius, (255, 0, 0 ), 4)
 
    cv.imshow('Capture - Face detection', frame)
 
parser = argparse.ArgumentParser(description='Code for Cascade Classifier tutorial.')
parser.add_argument('--face_cascade', help='Path to face cascade.', default='data/haarcascades/haarcascade_frontalface_alt.xml')
parser.add_argument('--eyes_cascade', help='Path to eyes cascade.', default='data/haarcascades/haarcascade_eye_tree_eyeglasses.xml')
parser.add_argument('--camera', help='Camera divide number.', type=int, default=0)
args = parser.parse_args()
 
face_cascade_name = args.face_cascade
eyes_cascade_name = args.eyes_cascade
 
face_cascade = cv.CascadeClassifier()
eyes_cascade = cv.CascadeClassifier()
 
#-- 1. Load the cascades
if not face_cascade.load(cv.samples.findFile(face_cascade_name))
print('--(!)Error loading face cascade')
exit(0)
if not eyes_cascade.load(cv.samples.findFile(eyes_cascade_name))
print('--(!)Error loading eyes cascade')
exit(0)
 
camera_device = args.camera
#-- 2. Read the video stream
cap = cv.VideoCapture(camera_device)
if not cap.isOpened
print('--(!)Error opening video capture')
exit(0)
 
while True
ret, frame = cap.read()
    if frame is None
print('--(!) No captured frame -- Break!')
        break
 
detectAndDisplay(frame)
 
    if cv.waitKey(10) == 27
        break

结果

以下是运行上述代码并将内置网络摄像头的视频流用作输入的结果

确保程序能够找到文件 haarcascade_frontalface_alt.xml 和 haarcascade_eye_tree_eyeglasses.xml 的路径。它们位于 opencv/data/haarcascades 中

这是使用文件 lbpcascade_frontalface.xml（LBP 训练）进行人脸检测的结果。对于眼睛，我们继续使用教程中使用的文件。

补充资源

Paul Viola 和 Michael J. Jones。稳健的实时人脸检测。国际计算机视觉杂志，57(2):137–154, 2004。 [285]
Rainer Lienhart 和 Jochen Maydt。用于快速目标检测的扩展 Haar 类特征集。在图像处理中。2002。论文集。2002 年国际会议，卷 1，第 I–900 页。IEEE，2002。 [167]
关于人脸检测与跟踪的视频讲座
由Adam Harvey进行的一次关于人脸检测的有趣采访
由 Adam Harvey 在 Vimeo 上发布的OpenCV 人脸检测：可视化


原始作者	Ana Huamán
兼容性	OpenCV >= 3.0

目录

目标

理论

OpenCV 中的 Haar 级联检测

结果

补充资源