HardNet改进和变体详解及对比

目前仅供内部阅读，非常抱歉~

[hide]
知道大家最关心什么，所以，相关的Github链接：

brown_phototour_revisited：https://github.com/1061700625/brown_phototour_revisited
HardNet_MultiDataset： https://github.com/1061700625/HardNet_MultiDataset
AMOS_patches：https://github.com/pultarmi/AMOS_patches

基线与评估框架

基线：

评估：

流程：

指标：
1、0.95召回率时假阳性率(通常用于UBC PhotoTour)

观察到这个度量与描述符的实际性能几乎没有关联，因此它的可用性仅限于模型训练期间的收敛性检查。

2、平均精度（MAP）

其中sij是查询i中第j大的分配置信度得分，V表示样本Sij和样本sij-1的召回率的差，P表示精度，考虑样本si, 1，…, Sij。APi的值是在查询Q中取的平均值，其中每个查询包含Ni个样本。这个度量在HPatches中有三个任务：

验证：描述符用于为一对补丁分配一个分数，以指示它们是否对应。
检索：有一个查询补丁，描述符用于从一组给定的补丁中检索相应的补丁，该补丁包含几个正数和大量的负数。
匹配：与图像匹配管道最相关的任务是给定一个查询patch和一组包含一个正数的patch，找到对应的patch。

各个实验比较

不同图像缩放程度下

不同模态数据集

G为灰度，D为(估计单)深度。

不同数据集大小

ei为补丁集i在其包含的所有补丁上的这些差异的平均值。

较小数据集下的HardNet：

多数据集训练

结合这些数据集可以带来一些改进。然而，有几件事你必须要小心。首先，在某些情况下，我们经常会经历相反的行为，例如:在Colosseum训练的HardNet8获得70.75 mAA(100)，而添加Liberty则获得70.21 mAA(109)。从某种意义上说，这种负面影响可以通过描述符的压缩来恢复，因为我们发现，如果模型在更多的数据集上训练，降维效果会更好。

不同输入大小

不同的输出大小

输出向量变长，带来内存占用率高、最近邻搜索速度慢等缺点。如果我们将HardNet8的输出大小减少到128以匹配SIFT的向量长度，我们将得到较差的结果：在IMW PT基准上68.75 mAA(109)和69.43 mAA(109)。另一种减少输出大小的方法是使用降维技术。在此，我们利用主成分分析(PCA)来压缩特征嵌入。降维是有益的。我们可以看到，最好的组合是HardNet8，输出大小为512，然后压缩为128。在这个实验中，我们在UBC Phototour的Liberty数据集上进行训练，我们在训练数据的模型输出上拟合PCA。

最后的池化影响

替换最后一个卷积层为：

增加接收域：不优于基线。
local pool：性能比基线更糟糕。
Non-learned Pooling：MaxPool实现更糟糕的结果，AvGPool无法学习。

不同的margin

不同的batch size

不同的epoch数

不同模型的评估

结论

1、更多数据集的训练可能会使描述符质量恶化。
2、resnet类架构和模型不如那些vgg类模型。类似的观察也发生在切换到局部池或增加接受域。
3、更大的训练批量是有益的。
4、使用PCA压缩网络输出可以在IMW PT基准测试中获得更好的结果。
5、在减少了一个数量级的数据集上进行训练，可以获得类似的性能。
6、通过切换到RGB或用估计的单深度映射连接补丁来丰富数据模式，会导致有限或没有任何改进。
7、在手动选择摄像机进行训练时，小而多样化的子集比具有相似视图或不精确对齐的图像的大子集更好。
8、在训练过程中对一批patch进行采样时，使用较少的源摄像机是有益的。

参考文献

1、Improving the HardNet Descriptor

[/hide]