清华大学联合企业发布全球最大的公开人脸数据集

editor • 2021-03-16 14:58 • 创新技术 • 阅读 1421

400万人脸ID、2.6亿张图片，相关研究入选CVPR 2021

金磊发自凹非寺

量子位报道 | 公众号 QbitAI

人脸识别领域，中国队再次传来捷报。

全球最大规模人脸数据集发布。首次包含数百万ID和数亿图片。

这就是由芯翌科技与清华大学自动化系智能视觉实验室合作，所推出的 WebFace 260M，相关研究已被CVPR 2021接收。

并且，基于其所清洗的数据集 WebFace42M，在最具挑战IJBC测试集上，也已经达到了SOTA水平。

而它所带来的“全球之最”还不止于此。

以这项数据集为基础，芯翌科技在最新一期的NIST-FRVT榜单上，戴口罩人脸识别评测中斩获世界第一。

全球之最的人脸数据集，长什么样？

WebFace260M这个数据集，是完全基于全球互联网公开人脸数据。

它的问世，一举打破了此前人脸数据集的规模：

不仅规模最大，也是首次在人脸ID数目和图片数，分别达到了400万和2.6亿的规模。

此外，研究人员还提出了基于自训练全自动迭代的清洗流程（Cleaning Automatically by Self-Training, CAST）。这种方法的灵感来自于对互联网人脸数据的观察和分析。

WebFace260M数据提供了粗糙的分类，可以基于此作为清洗算法的初始结构。另外，研究人员发现，在大规模含噪声人脸数据清洗中，嵌入特征显得十分重要，而这个特征可以通过同时迭代数据和模型得到增强。因此，整个清洗流程如下图所示：

首先，利用名为MS1M的公开数据集训练一个“教师模型”，并对原始WebFace260M进行清洗。
其次，利用一个“学生模型”，在上一步清洗过的图像上进行训练。
最后，让“学生模型”切换为“教师模型”，并进行迭代，直到获得高质量的WebFace42M。

通过这种方式，在对WebFace260M进行清洗操作后，便得到了WebFace42M。

据介绍，它是目前全球规模最大、可直接用于训练的干净人脸数据集：

包含200万ID、4200万图片。

关于WebFace260M和WebFace42M的“世界之最”，一张表格的数据对比，便可一目了然：

同时，针对目前人脸识别的评测问题，研究人员发布了更贴近实际应用的“时间受限人脸识别评测准则”-FRUITS(Face Recognition Under Inference Time conStraint)，和分布更广泛、更具挑战性、分类更细致的人脸测试集，这将推动人脸识别评测更靠近真实场景。

同时，研究人员将持续维护、迭代和升级该测试集以及评测系统，持续助力行业技术发展。

这样的数据集，好用吗？

对于这个问题，答案是肯定，而且是得到了非常专业的实践和认可的那种。

以WebFace42M为例，它能够在目前公开的、最具挑战性的IJBC测试集上，达到新的SOTA，相对错误率还降低了40%。

除此之外，有一个叫做NIST-FRVT的比赛，是由美国国家标准与技术研究院主办，素来有着“人脸识别黄金赛事”的别称。

因为它具有测评集非对外公开、提交频率严格限制、计算时间严格限制等诸多严苛要求，所以可以称得上是全球标准最严、最具权威的人脸识别算法评测。

那么当WebFace42M的数据，遇到如此棘手的赛事，又会擦出怎样的火花呢？

早在去年10月份，仅用WebFace42M的数据，芯翌科技便在NIST-FRVT的榜单上取得了前三名的成绩。

而在刚刚最新一期的NIST-FRVT榜单上，以WebFace42M为基础，在“戴口罩人脸识别评测”中又一次创造了“世界之最”——夺得比赛冠军。

而且从数据中不难看出，与第二名的成绩可以说是两个量级。

除此之外，在1:1人脸识别评测中，也取得了综合排名世界前三的成绩。

为什么要做这样的数据集？

人脸识别，这项技术可以说是真的火。

火到已经步入人们日常生活，打卡、开门禁、解锁手机等等，都成了它大展拳脚的地方。

也正因如此，学术、工业界的科研工作者，在人脸识别的精度和速度上，形成了竞相追逐的状态。

而据研究表明，人脸数据集对于上述的影响是最大的。特别是在目前以深度学习为核心的人工智能研发模式下，软件开发会逐渐从传统的软件1.0，过渡到以数据为核心的“数据即代码，模型即软件”的软件2.0时代。

然而在数据集这块，目前的现状却是：

公开数据规模和实际人脸识别系统所需数据规模，差距过大。

怎么说？

例如在WebFace260M发布之前，公开的数据规模都是较小，此前规模最大的就是MegaFace2和MS1M。

MegaFace2拥有67.2万ID和470万图片，MS1M拥有10万 ID和1000万图片。

如此规模的公开数据，对于科研人员来说，是远远无法满足实际人脸识别系统的数据需求。

同时这也只是限制人脸识别技术发展的瓶颈之一，评测准则和测试集也是重要因素。

目前公开的人脸识别评测集，包括LFW、CFP、AgeDB、RFW、MegaFace、IJB系列等，在精度上基本已经比较饱和。

同时，还存在不同场景下表现不够细致的情况。

因此，WebFace260M和WebFace42M以及相关Benchmark的推出，在一定程度上可以说是拉近了公开数据集规模与实际应用产业界的这条鸿沟，进一步推动以深度学习为核心的人脸识别相关技术的进步，促进智能化行业的繁荣发展。

而比起规模的上突破，更大的意义应该在于“科技向善”、“数据生态”。

经过过去几年的发展，人脸识别以及人工智能技术取得了巨大的进步，也产生了显著的社会经济价值，但是也出现了很多由于技术发展带来的社会问题。

团队希望通过这个数据集的建立和相关工作，和产业界以及社会各界一起，构建人脸识别测试和应用标准，规范人脸识别应用市场，治理人脸识别应用乱象，科技向善，凸显人工智能技术的价值和温度。

更进一步来讲，在现今数字经济和智能化高速发展的当下，数字资源已然成为像水、电一样的必需品；同时又像石油一般的宝贵，需要有规划地去生产、使用、分享和交易等。

但现在目前的状况是，国内外普遍对此的重视程度不够，具体而言包括行业规范不标准、分享程度不足，也没有长期的规划，由此便反过来抑制了数字经济和智能化的发展进程。

目前国家层面非常鼓励和重视数据集的创新和规范，清华大学和芯翌科技的研究人员也积极响应国家的号召和政策的要求，希望和国家、政府机构、学术界以及产业界一起，打造智能化时代开放、共享、安全的数据生态。

网站地址：

https://www.face-benchmark.org

论文地址：

https://arxiv.org/abs/2103.04098

声明：本文来自量子位，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

版权归原作者所有，如若转载，请注明出处：https://www.ciocso.com/article/406.html

赞 (0)

0 0

John Kindervag：零信任，“简单”获得安全

上一篇 2021-03-16 13:54

盘点：近年来3·15晚会曝光网络安全与隐私案例

下一篇 2021-03-16 17:49

创新技术

攻击面管理（ASM）：让防护比网络攻击抢先一步

考虑到受攻击的潜在成本，及有可能导致的灾难性后果，攻击面管理（简称“ASM”）等新兴技术有了用武之地。

editor
2022-02-14
001.6K0
创新技术

针对VMware虚拟机平台的勒索软件攻击开始肆虐

勒索病毒已经盯上了 VMware虚拟机平台！

editor
2021-03-21
001.3K0
英特尔处理器被曝存关键漏洞，可用来“为某国政府谋利”

研究员发现，英特尔处理器有两条未被记录的指令允许修改微代码并获得对处理器和整个系统的控制。

editor
创新技术 2021-03-29
001.2K0
创新技术

公司研究 | Palantir 大数据能力分析研究

本文首先介绍了Palantir公司典型案例与核心产品特性，其次从中分析梳理出了隐藏在产品特性中的关键技术，最后给出在研究过程中获得的启示并提出几点建议。

editor
2021-09-23
002.6K0
创新技术

Palo Alto Networks：零信任在企业落地中的最佳实践

Palo Alto Networks通过提供独特的功能和专业的服务将零信任真正在企业中落地，变得实际可行且易于部署，成为企业发展的强大助力。

editor
2021-06-08
001.9K0
创新技术

SANS 2021自动化与集成报告：安全自动化从观战到实战

安全自动化：从观战到实战。

editor
2021-08-27
001.5K0
俄罗斯顶级网络犯罪论坛遭攻击，黑客用户担心身份曝光

多家俄罗斯网络犯罪论坛遭攻陷，导致黑客们都在等待执法部门上门的过程中惶惶不可终日。

editor
创新技术 2021-03-09
001.3K0
云原生安全厂商小佑科技获数千万元Pre-A轮融资

小佑科技提出针对云原生应用全生命周期的安全管理解决方案，能够在DevSecOps的全流程为开发运维及安全人员提供完整的安全与管理赋能，

editor
创新技术 2021-03-04
001.4K0
创新技术

微隔离的五大关键问题

作为实现“零信任”的三大技术路径之一，网络隔离并不是新的概念，而微隔离技术（Micro-Segmentation）是VMware在应对虚拟化隔离技术时提出来的，但真正让微隔离备受大家关注是从2016年起连续3年微隔离技术都进入Gartner年度安全技术榜单开始。

editor
2021-02-06
001.8K0
创新技术

2020年美国网络空间战略概览与分析

在全球局势不稳定性、不确定性加剧的情况下，美国在2020年出台的系列战略文件中涉及网络空间安全的高达20余份，持续加强在网络空间领域的战略规划和顶层牵引。

editor
2021-03-18
201.8K0

发表回复

登录后才能评论