OpenCV 4.11.0
开源计算机视觉库
加载中…
搜索中…
无匹配项
samples/cpp/train_HOG.cpp
#include "opencv2/ml.hpp"
#include <iostream>
#include <time.h>
using namespace cv;
using namespace cv::ml;
using namespace std;
vector< float > get_svm_detector( const Ptr< SVM >& svm );
void convert_to_ml( const std::vector< Mat > & train_samples, Mat& trainData );
void load_images( const String & dirname, vector< Mat > & img_lst, bool showImages );
void sample_neg( const vector< Mat > & full_neg_lst, vector< Mat > & neg_lst, const Size & size );
void computeHOGs( const Size wsize, const vector< Mat > & img_lst, vector< Mat > & gradient_lst, bool use_flip );
void test_trained_detector( String obj_det_filename, String test_dir, String videofilename );
vector< float > get_svm_detector( const Ptr< SVM >& svm )
{
// 获取支持向量
Mat sv = svm->getSupportVectors();
const int sv_total = sv.rows;
// 获取决策函数
Mat alpha, svidx;
double rho = svm->getDecisionFunction( 0, alpha, svidx );
CV_Assert( alpha.total() == 1 && svidx.total() == 1 && sv_total == 1 );
CV_Assert( (alpha.type() == CV_64F && alpha.at<double>(0) == 1.) ||
(alpha.type() == CV_32F && alpha.at<float>(0) == 1.f) );
CV_Assert( sv.type() == CV_32F );
vector< float > hog_detector( sv.cols + 1 );
memcpy( &hog_detector[0], sv.ptr(), sv.cols*sizeof( hog_detector[0] ) );
hog_detector[sv.cols] = (float)-rho;
return hog_detector;
}
/*
* 将训练/测试集转换为OpenCV机器学习算法可用的格式。
* TrainData是一个大小为(样本数 x 样本最大列数/行数)的矩阵,类型为32FC1。
* 如有必要,会对样本进行转置。
*/
void convert_to_ml( const vector< Mat > & train_samples, Mat& trainData )
{
//--转换数据
const int rows = (int)train_samples.size();
const int cols = (int)std::max( train_samples[0].cols, train_samples[0].rows );
Mat tmp( 1, cols, CV_32FC1 );
trainData = Mat( rows, cols, CV_32FC1 );
for( size_t i = 0 ; i < train_samples.size(); ++i )
{
CV_Assert( train_samples[i].cols == 1 || train_samples[i].rows == 1 );
if( train_samples[i].cols == 1 )
{
transpose( train_samples[i], tmp );
tmp.copyTo( trainData.row( (int)i ) );
}
else if( train_samples[i].rows == 1 )
{
train_samples[i].copyTo( trainData.row( (int)i ) );
}
}
}
void load_images( const String & dirname, vector< Mat > & img_lst, bool showImages = false )
{
vector< String > files;
glob( dirname, files );
for ( size_t i = 0; i < files.size(); ++i )
{
Mat img = imread( files[i] ); // 加载图像
if ( img.empty() )
{
cout << files[i] << " is invalid!" << endl; // 无效图像,跳过。
continue;
}
如果 (showImages)
{
imshow( "image", img );
waitKey( 1 );
}
img_lst.push_back( img );
}
}
void sample_neg( const vector< Mat > & full_neg_lst, vector< Mat > & neg_lst, const Size & size )
{
Rect box;
box.width = size.width;
box.height = size.height;
srand( (unsigned int)time( NULL ) );
for ( size_t i = 0; i < full_neg_lst.size(); i++ )
如果 ( full_neg_lst[i].cols > box.width && full_neg_lst[i].rows > box.height )
{
box.x = rand() % ( full_neg_lst[i].cols - box.width );
box.y = rand() % ( full_neg_lst[i].rows - box.height );
Mat roi = full_neg_lst[i]( box );
neg_lst.push_back( roi.clone() );
}
}
void computeHOGs( const Size wsize, const vector< Mat > & img_lst, vector< Mat > & gradient_lst, bool use_flip )
{
hog.winSize = wsize;
Mat gray;
vector< float > descriptors;
for( size_t i = 0 ; i < img_lst.size(); i++ )
{
如果 ( img_lst[i].cols >= wsize.width && img_lst[i].rows >= wsize.height )
{
Rect r = Rect(( img_lst[i].cols - wsize.width ) / 2,
( img_lst[i].rows - wsize.height ) / 2,
wsize.width,
wsize.height);
cvtColor( img_lst[i](r), gray, COLOR_BGR2GRAY );
hog.compute( gray, descriptors, Size( 8, 8 ), Size( 0, 0 ) );
gradient_lst.push_back( Mat( descriptors ).clone() );
如果 ( use_flip )
{
flip( gray, gray, 1 );
hog.compute( gray, descriptors, Size( 8, 8 ), Size( 0, 0 ) );
gradient_lst.push_back( Mat( descriptors ).clone() );
}
}
}
}
void test_trained_detector( String obj_det_filename, String test_dir, String videofilename )
{
cout << "正在测试训练好的检测器..." << endl;
hog.load( obj_det_filename );
vector< String > files;
glob( test_dir, files );
int delay = 0;
如果 ( videofilename != "" )
{
如果 ( videofilename.size() == 1 && isdigit( videofilename[0] ) )
cap.open( videofilename[0] - '0' );
否则
cap.open( videofilename );
}
obj_det_filename = "testing " + obj_det_filename;
namedWindow( obj_det_filename, WINDOW_NORMAL );
for( size_t i=0;; i++ )
{
Mat img;
如果 ( cap.isOpened() )
{
cap >> img;
delay = 1;
}
否则如果( i < files.size() )
{
img = imread( files[i] );
}
如果 ( img.empty() )
{
返回;
}
vector< Rect > detections;
vector< double > foundWeights;
hog.detectMultiScale( img, detections, foundWeights );
for ( size_t j = 0; j < detections.size(); j++ )
{
Scalar color = Scalar( 0, foundWeights[j] * foundWeights[j] * 200, 0 );
rectangle( img, detections[j], color, img.cols / 400 + 1 );
}
imshow( obj_det_filename, img );
如果(waitKey( delay ) == 27 )
{
返回;
}
}
}
int main( int argc, char** argv )
{
const char* keys =
{
"{help h| | 显示帮助信息}"
"{pd | | 包含正样本图像的目录路径}"
"{nd | | 包含负样本图像的目录路径}"
"{td | | 包含测试图像的目录路径}"
"{tv | | 测试视频文件名}"
"{dw | | 检测器的宽度}"
"{dh | | 检测器的高度}"
"{f |false| 指示程序是否生成并使用镜像样本}"
"{d |false| 训练两次}"
"{t |false| 测试训练好的检测器}"
"{v |false| 可视化训练步骤}"
"{fn |my_detector.yml| 训练好的SVM文件名}"
};
CommandLineParser parser( argc, argv, keys );
如果 (parser.has("help"))
{
parser.printMessage();
exit(0);
}
String pos_dir = parser.get<String>("pd");
String neg_dir = parser.get<String>("nd");
String test_dir = parser.get<String>("td");
String obj_det_filename = parser.get<String>("fn");
String videofilename = parser.get<String>("tv");
int detector_width = parser.get<int>("dw");
int detector_height = parser.get<int>("dh");
bool test_detector = parser.get<bool>("t");
bool train_twice = parser.get<bool>("d");
bool visualization = parser.get<bool>("v");
bool flip_samples = parser.get<bool>("f");
如果 (test_detector)
{
test_trained_detector(obj_det_filename, test_dir, videofilename);
exit(0);
}
如果 (pos_dir.empty() || neg_dir.empty())
{
parser.printMessage();
cout << "参数数量错误。\n\n"
<< "示例命令行:\n" << argv[0] << " -dw=64 -dh=128 -pd=/INRIAPerson/96X160H96/Train/pos -nd=/INRIAPerson/neg -td=/INRIAPerson/Test/pos -fn=HOGpedestrian64x128.xml -d\n"
<< "\n测试已训练检测器的示例命令行:\n" << argv[0] << " -t -fn=HOGpedestrian64x128.xml -td=/INRIAPerson/Test/pos";
exit(1);
}
vector<Mat> pos_lst, full_neg_lst, neg_lst, gradient_lst;
vector<int> labels;
clog << "正在加载正样本图像...";
load_images(pos_dir, pos_lst, visualization);
如果 (pos_lst.size() > 0)
{
clog << "...[完成] " << pos_lst.size() << " 个文件。" << endl;
}
否则
{
clog << "在 " << pos_dir << " 中没有图像" << endl;
返回 1;
}
Size pos_image_size = pos_lst[0].size();
如果 (detector_width && detector_height)
{
pos_image_size = Size(detector_width, detector_height);
}
否则
{
for (size_t i = 0; i < pos_lst.size(); ++i)
{
如果 (pos_lst[i].size() != pos_image_size)
{
cout << "所有正样本图像的大小应该相同!" << endl;
exit(1);
}
}
pos_image_size = pos_image_size / 8 * 8;
}
clog << "正在加载负样本图像...";
load_images(neg_dir, full_neg_lst, visualization);
clog << "...[完成] " << full_neg_lst.size() << " 个文件。" << endl;
clog << "正在处理负样本图像...";
sample_neg(full_neg_lst, neg_lst, pos_image_size);
clog << "...[完成] " << neg_lst.size() << " 个文件。" << endl;
clog << "正在计算正样本图像的梯度直方图...";
computeHOGs(pos_image_size, pos_lst, gradient_lst, flip_samples);
size_t positive_count = gradient_lst.size();
labels.assign(positive_count, +1);
clog << "...[完成] (正样本图像数量:" << positive_count << " )" << endl;
clog << "正在计算负样本图像的梯度直方图...";
computeHOGs(pos_image_size, neg_lst, gradient_lst, flip_samples);
size_t negative_count = gradient_lst.size() - positive_count;
labels.insert(labels.end(), negative_count, -1);
CV_Assert(positive_count < labels.size());
clog << "...[完成] (负样本图像数量:" << negative_count << " )" << endl;
Mat train_data;
convert_to_ml(gradient_lst, train_data);
clog << "正在训练SVM...";
Ptr<SVM> svm = SVM::create();
/* 训练SVM的默认值 */
svm->setCoef0(0.0);
svm->setDegree(3);
svm->setTermCriteria(TermCriteria(TermCriteria::MAX_ITER + TermCriteria::EPS, 1000, 1e-3));
svm->setGamma(0);
svm->setKernel(SVM::LINEAR);
svm->setNu(0.5);
svm->setP(0.1); // 对于EPSILON_SVR,损失函数中的epsilon?
svm->setC(0.01); // 来自论文,软分类器
svm->setType(SVM::EPS_SVR); // C_SVC; // EPSILON_SVR; // 也可能是NU_SVR; // 执行回归任务
svm->train(train_data, ROW_SAMPLE, labels);
clog << "...[完成]" << endl;
如果 (train_twice)
{
clog << "正在使用负样本图像测试已训练的检测器。这可能需要几分钟...";
HOGDescriptor my_hog;
my_hog.winSize = pos_image_size;
// 将训练好的svm设置为my_hog
my_hog.setSVMDetector(get_svm_detector(svm));
vector< Rect > detections;
vector< double > foundWeights;
for ( size_t i = 0; i < full_neg_lst.size(); i++ )
{
如果 (full_neg_lst[i].cols >= pos_image_size.width && full_neg_lst[i].rows >= pos_image_size.height)
my_hog.detectMultiScale(full_neg_lst[i], detections, foundWeights);
否则
detections.clear();
for ( size_t j = 0; j < detections.size(); j++ )
{
Mat detection = full_neg_lst[i](detections[j]).clone();
resize(detection, detection, pos_image_size, 0, 0, INTER_LINEAR_EXACT);
neg_lst.push_back(detection);
}
如果 (visualization)
{
for ( size_t j = 0; j < detections.size(); j++ )
{
rectangle(full_neg_lst[i], detections[j], Scalar(0, 255, 0), 2);
}
imshow("使用负样本图像测试已训练的检测器", full_neg_lst[i]);
waitKey( 5 );
}
}
clog << "...[完成]" << endl;
gradient_lst.clear();
clog << "正在计算正样本图像的梯度直方图...";
computeHOGs(pos_image_size, pos_lst, gradient_lst, flip_samples);
positive_count = gradient_lst.size();
clog << "...[完成] ( 正样本数 : " << positive_count << " )" << endl;
clog << "正在计算负样本图像的梯度直方图...";
computeHOGs(pos_image_size, neg_lst, gradient_lst, flip_samples);
negative_count = gradient_lst.size() - positive_count;
clog << "...[完成] ( 负样本数 : " << negative_count << " )" << endl;
labels.clear();
labels.assign(positive_count, +1);
labels.insert(labels.end(), negative_count, -1);
clog << "再次训练SVM...";
convert_to_ml(gradient_lst, train_data);
svm->train(train_data, ROW_SAMPLE, labels);
clog << "...[完成]" << endl;
}
hog.winSize = pos_image_size;
hog.setSVMDetector( get_svm_detector( svm ) );
hog.save( obj_det_filename );
test_trained_detector(obj_det_filename, test_dir, videofilename);
返回 0;
}
用于命令行解析。
定义 utility.hpp:890
n维密集数组类
定义 mat.hpp:829
CV_NODISCARD_STD Mat clone() const
创建数组和底层数据的完整副本。
Mat row(int y) const
为指定的矩阵行创建一个矩阵头。
uchar * ptr(int i0=0)
返回指向指定矩阵行的指针。
_Tp & at(int i0=0)
返回对指定数组元素的引用。
int cols
定义 mat.hpp:2155
size_t total() const
返回数组元素的总数。
bool empty() const
如果数组没有元素,则返回true。
int rows
行数和列数,当矩阵维度超过2维时为(-1, -1)
定义 mat.hpp:2155
int type() const
返回矩阵元素的类型。
二维矩形的模板类。
定义 types.hpp:444
_Tp x
左上角的x坐标
定义 types.hpp:487
_Tp y
左上角的y坐标
定义 types.hpp:488
_Tp width
矩形的宽度
定义 types.hpp:489
_Tp height
矩形的高度
定义 types.hpp:490
用于指定图像或矩形大小的模板类。
定义 types.hpp:335
_Tp height
高度
定义 types.hpp:363
_Tp width
宽度
定义 types.hpp:362
定义迭代算法终止条件的类。
定义 types.hpp:893
用于从视频文件、图像序列或摄像头捕获视频的类。
定义 videoio.hpp:766
virtual bool open(const String &filename, int apiPreference=CAP_ANY)
打开视频文件、捕获设备或IP视频流进行视频捕获。
virtual bool isOpened() const
如果视频捕获已初始化,则返回true。
void flip(InputArray src, OutputArray dst, int flipCode)
围绕垂直轴、水平轴或两个轴翻转二维数组。
std::string String
定义 cvstd.hpp:151
std::shared_ptr< _Tp > Ptr
定义 cvstd_wrapper.hpp:23
#define CV_64F
定义 interface.h:79
#define CV_32FC1
定义 interface.h:118
#define CV_32F
定义 interface.h:78
#define CV_Assert(expr)
运行时检查条件,如果失败则抛出异常。
定义 base.hpp:359
void glob(String pattern, std::vector< String > &result, bool recursive=false)
搜索目录中与指定模式匹配的文件。
void imshow(const String &winname, InputArray mat)
在指定的窗口中显示图像。
int waitKey(int delay=0)
等待按键按下。
void namedWindow(const String &winname, int flags=WINDOW_AUTOSIZE)
创建窗口。
CV_EXPORTS_W Mat imread(const String &filename, int flags=IMREAD_COLOR_BGR)
从文件中加载图像。
void cvtColor(InputArray src, OutputArray dst, int code, int dstCn=0, AlgorithmHint hint=cv::ALGO_HINT_DEFAULT)
将图像从一个颜色空间转换为另一个颜色空间。
void rectangle(InputOutputArray img, Point pt1, Point pt2, const Scalar &color, int thickness=1, int lineType=LINE_8, int shift=0)
绘制一个简单的、粗的或填充的右上角矩形。
void resize(InputArray src, OutputArray dst, Size dsize, double fx=0, double fy=0, int interpolation=INTER_LINEAR)
调整图像大小。
int main(int argc, char *argv[])
定义 highgui_qt.cpp:3
GOpaque< Size > size(const GMat &src)
从Mat获取尺寸。
定义 ml.hpp:75
定义 core.hpp:107
STL命名空间。
HOG(方向梯度直方图)描述符和目标检测器的实现。
定义 objdetect.hpp:403
virtual void compute(InputArray img, std::vector< float > &descriptors, Size winStride=Size(), Size padding=Size(), const std::vector< Point > &locations=std::vector< Point >()) const
计算给定图像的HOG描述符。
virtual void save(const String &filename, const String &objname=String()) const
将HOGDescriptor参数和线性SVM分类器的系数保存到文件。
virtual void setSVMDetector(InputArray svmdetector)
设置线性SVM分类器的系数。
Size winSize
检测窗口大小。与块大小和块步长对齐。默认值为Size(64,...
定义 objdetect.hpp:621
virtual bool load(const String &filename, const String &objname=String())
从文件加载HOGDescriptor参数和线性SVM分类器的系数。
virtual void detectMultiScale(InputArray img, std::vector< Rect > &foundLocations, std::vector< double > &foundWeights, double hitThreshold=0, Size winStride=Size(), Size padding=Size(), double scale=1.05, double groupThreshold=2.0, bool useMeanshiftGrouping=false) const
检测输入图像中不同大小的目标。检测到的目标作为…列表返回。