传统影像的完全颠覆XD Fusion,华为影像系统的支点
【慧聪通信网】这是华为年度影像旗舰P40发布之后的第二篇技术解读文章,和之前将关注重点放在硬件上不同,这一篇更偏向软件与算法机制。因为之前我也说过,在“传感器:镜头:算法”这个“1:1:1”的手机影像体系中,随着硬件能力的逐步趋同与看齐,算法已经成为手机品牌之间用来区隔影像能力的新战场,它正在催生着这个比例向“1:1:2”甚至更高权重转化。而对于华为誓要领先手机影像行业的目标来说,算法在现在与未来显得尤为重要,这也是为何“XDFusion图像引擎”在今年横空出世的原因。
Tips:何为“XDFusion图像引擎”?
XDFusion其实是华为影像团队内部的一个代号,XD中的X意为Extreme(极致),D是Definition(清晰度),Fusion意为融合,合在一起的意思就是“超清图像引擎”。这是一个在华为内部已经讲了很多年的概念——把它放在业界其实就是通称的“计算摄影”。目前业界明确提出计算摄影概念的厂商有三家:谷歌,苹果以及华为。
华为影像体系的理念
在解释XDFusion的重要性之前,我觉得有必须回顾一下华为整个影像技术体系的发展路径和理念,因为只有把这个问题弄清楚了,我们才能知道为什么到了今年,会有P40系列上的IMX700,会有P40Pro+上的10倍光学长焦模组。
在华为的影像体系当中,是将手机影像的发展分为空间与时间两个维度来看待的,其中的空间,就是指的变焦,即让手机能看得更远;而时间,则是指让手机能在全天的条件下都能产出画质稳定的照片,因为在华为影像团队看来,随着硬件和基础算法的发展,在光线条件好的情况下,很多手机都能拍摄画质出色的照片,但光线一旦不好或变得复杂,不同手机的表现就拉开差距了——我觉得之前iPhone拍照“白天龙,晚上虫”的评价肯定是被华为看在眼里了。
按这个理念,从P9算起,我们就能看到这样的发展轨迹:
P9,加入黑白传感器,极大强化了手机的暗光拍摄能力,这一点我深以为然;
P10,两倍光学模组加入,让手机开始看得更远;
P20,三倍光学模组加入,辅以IMX600定制大底元件,夜拍能力成为华为P系列手机的标志;
P30,5倍光学模组加入,RYYB排列定制感光元件将P系列手机的成像照度扩展到0.1Lux;
P40,10倍光学模组加入,RYYB排列定制感光元件变得更大,同时向其他影像模组扩展。
将时间线拉长回看,华为整个P系列的发展路径就非常清晰了,这甚至还能在一定程度上回答很多人的疑问:“为什么华为一定要坚持RYYB这个最初看来有些吃力不讨好的技术?”
技术发展到现在,随着感光元件和镜头技术的双双进步,这些源自拍摄空间与时间的问题都在被逐步解决,但是,放在华为影像团队面前需要解决的问题也是在变化的,或者说在达成了参数上的目标之后,需要进一步做到的就是更好与更强,能保持业界第一的地位。比如长焦体验,就已经整整分化为四个优化的维度:第一,清晰度,这是排在所有客观指标第一位的,从目前我使用P40Pro的情况看,对比P30Pro的进步是明显的;第二,色彩,这一点之前我也有过解读,随着8通道RGB色温传感器的加入和算法的提升,这个问题比起前作改善了不少;第三,稳定性,对于我这种长期玩相机的人,感觉就是大变焦下更容易端得住相机了,但我想对大部分普通消费者来说,手持长焦的稳定性问题不仅仅是手法问题,更可能还有认知问题;第四,倍数,这里主要还是指的P40Pro+上的10倍模组,这一点留待后边再说。
硬件负责输入,软件负责输出
P系列历经5代硬件的发展,这其中Mate系列时不时来穿插助个攻,让P40这一代机型已经获得了足够强劲的影像硬件基础,比如单像素和尺寸都足够的传感器,看得更远且协同工作的镜头,感光度够高的光线捕捉能力,更加准确的环境色温感知,ToF模组提供的光场信息,甚至还有AI加入RAW域处理,直接识别被拍摄物体的类型等。但是这对于一个完整的手机影像系统来说,只是解决了一半的问题,即这一切都是信息的输入,光有这些信息是无法输出一张令人满意的照片的,面对这一大堆输入信息的即是软件系统,即算法。
其实,刚刚说到的这一堆由影像模组硬件所捕捉到的信息,就是整个华为XDFusion图像引擎的第一大模块:硬件的输入。如果将生成一张照片看成是做一道菜的话,华为影像团队将这一个部分就称为是食材的准备,它不仅仅需要数量和种类要够,同时还有质量的问题——“番茄炒鸡蛋是好吃,但番茄是烂的,鸡蛋是臭的,大厨再厉害也白搭”。这也就相当于再次回答了在大底与高像素的流派选择中,为什么P40的主摄确定了5000万像素与1/1.28英寸的尺寸:在华为影像团队的判断中,这是一个可以同时兼顾像素数量与质量的选择。同时,他们也希望大家在看待P40的时候,不要简单地误会华为只在硬件上下功夫,做硬件的目的不是堆硬件,而是给软件侧的运算提供好的原素材。
接下来就是XDFusion图像引擎的第二个模块:机器视觉,中高层语义的分析、理解和分割。在这里就不得不提到在Mate10上头一次加入的“AI摄影大师”(之前我说的是从P20Pro开始,有误,特此道歉),它解决了过去影像拍摄中对于客观世界的识别问题。AI的加入,可以让手机的相机更加像人脑一样,去辨识客观世界,认知场景、客观物体,比如蓝天白云、草地花朵、猪牛猫狗,还有人的识别,包括皮肤、骨骼、脸部特征等。而中高层语义的识别,就是将这些识别出来的最基本的语义做理解与分割,放到神经网络系统中进行处理。比如人像拍摄时进行人与背景分离的抠像,就是为了后期进步美化人像做准备。这个过程,我们可以看做是对原素材的分类和初次加工——也就是做菜过程中的各种“备用”。
XDFusion的第三个模块:神经网络处理。这个部分就非常有意思了,因为一切都在模仿人脑的思维方式对照片信息进行精加工,所以在这个模块里,有学习、有随机、有猜测……连华为影像团队自己都说这个过程是非常玄妙的,但它的最终目的就是为了能给消费者提供一张优秀的照片。换言之就是:画质清不清晰、噪点少不少、色彩准不准、虚化效果好不好、光影是不是自然等等。我们常看到“像素级处理”就是在这个阶段进行的,最终的成像也就是这个阶段之后产生。于是,一道色香味俱全的好菜就上桌了。
上述三个模块,它们之间协同工作的步骤与逻辑,就组成了我们看到的XDFusion方案,也就是XDFusion超清图像引擎。当然,这也只是一个大的划分,前边说到AI-RAW算法、8色彩通道色温传感器+AIAWB自动白平衡算法,这些全部都被包括在XDFusion之中——可能将它称为是一个“技术池”更加形象,因为日后还会有更多的东西被装到里边去,也会让它变得更加的强大。
说到这里,我们也能看明白了,其实XDFusion图像引擎一直都存在,而并不是今年才从天上掉下来的,也不是什么一块华为全新开发的芯片,它是华为这些年在手机影像上各种各样技术积累的一个集合体,是通过异构计算、多芯片协同与软件测运算共同达成。只是到了今年,计算摄影已经慢慢成为手机影像行业大家公认的潮流,所以才将它和盘托出放到了我们的面前。现在,XDFusion在华为手机中已经是一个系统级的组件,它主要围绕主摄工作,但又不仅限于主摄(比如长焦),同时,几乎99%的手机成像工作它都要参与,凡是要用到后处理算法,多摄像头融合,以及机器视觉的识别能力或像素级优化图像品质的时候,就会进入到XDFusion的概念里。从这个角度来说,XDFusion的系统重要性已经高于苹果的DeepFusion了,后者是有触发条件的。
那么,随着技术的演进,XDFusion图像引擎能为消费者做么呢?它存在的目标就一个:“让普通的消费者能以最简单的方式获得一张好照片”——这个说法这些年我们真是看得多了,那么,华为又是如何来认知这个问题呢?
在华为影像团队看来,软件能力只是辅助,还原拍摄者的习惯和表现是首要的,但是通过软件测的能力,可以帮助消费者拍到更好的东西,得到更好的照片。就像最开始的AI场景识别就是出于这个目的,之后还有AI留色的功能,发展到今年,新增了这样几个重点的功能:AI精彩瞬间,去除误闯的路人,去除反光等,都是AI功能的进化。这一切都是围绕两点来展开的,这也是摄影的本质:第一,对光线的理解,改善画质;第二,摄影就是等待瞬间的艺术,而现在AI的能力就是在这两个维度做提升。
所以,“以最简单的方式获得一张好照片”这句看似轻描淡写的目标背后,却是大量运算的参与,越简单,背后要做的工作却是越多越复杂。也正是因为软硬件协同工作,在P40上,传统影像领域固定的焦段概念也在被“模糊”,即硬件本身的物理焦段与等效焦段放在XDFusion体系中,都只是变焦成像的原始素材,整个变焦焦段无缝衔接,全部都可以提供出色且画质区别不大的照片,这才是XDFusion整个影像体系意图达成和倡导的重要意义所在。
番外篇:P40Pro+的10倍光学长焦模组
这次发布的P40系列,被网友们戏称为“中杯,大杯,超大杯”,而其中的“超大杯”P40Pro+,更是因为全球首次搭载10倍光学长焦模组而备受关注,它到底是怎么达到的呢?为什么它的发售时间要晚一些呢?
华为认为,高倍数光学长焦镜头是手机上实现变焦的最佳方法,但镜头模组的物理特性(焦段越长、模组越长)是跟手机的ID设计相悖的。所以,华为P40Pro+的10倍光学长焦模组,在P30Pro潜望式镜头横置长焦镜头模组和感光器件基础之上,进一步采用全新的多反射潜望式光路折叠技术,实现5次反射光路,光程比上一代潜望式长焦提升了178%。
这个镜头模组的核心,就是那个用来进行光路折叠的反射镜组。但是,在光线多达4次的反射过程中,如何避免光路畸变,保证反射质量,就成为达成这个结果的重中之重——在生活中很多镜面反射的场景下,我们都可以看到反射面上的影像变形,这就是光路畸变造成的。华为的相机团队首先想到的是借鉴芯片的组装工艺技术,但经过比较后发现,芯片组装工艺技术对芯片变形的控制是10μm级别,达不到这个模组的光学精度要求。后来根据光学设计仿真,解析出这个模组最基本的光学规格需要达到纳米级,即精度要求是头发丝的两千分之一(头发丝的直径一般不超过100μm)。同时,这样的精度要求还需要在大规模量产中实现,镜头模组团队通过多次努力和探索,最终实现了最高约30nm的组装精度,满足了10倍光学长焦模组的工艺标准。
可以高精度量产只是一方面,另一方面,P40Pro+长焦模组的对焦马达需求特殊:其在带动具有多反射面的反射镜移动的同时,还不能干扰光路,马达只能“躲”在反射镜后面的有限空间中,且反射镜的大部分重量都是挂在马达的最前端。在这个状态下,马达不仅需要抵抗长力臂下L型反射镜产生的大力矩,还要保持在不同拍摄场景,都能高精度稳定移动反射镜,提供稳定光学表现。最后,镜头模组团队采用了滑槽式自动对焦马达,搭配极强的磁力与精密杠杆结构,精巧地平衡了前端的反射镜负载。同时还采用优异的润滑材料,使马达能够高稳定、高精度地移动反射镜,实现自动对焦功能——这个独特的对焦马达是该模组多个专利之一。除了独特的设计与功能,这颗马达还具备超长寿命的特点,即使经过数百万次的测试和极端环境的考验,依然硬朗运作。
这些技术方面的高难度,不但成为P40Pro+实现10倍光学长焦的保障,也影响了其与P40/P40Pro一起上市的时间,所以,目前我也只能拿到这些技术解析,就当是先期了解吧,等之后拿到“超大杯”我们再一起看这个模组的表现。
写在最后
实话实说,写这篇文章我是真挺吃力的,并不是因为不理解技术,而是整个XDFusion图像引擎对于我多年以来接触摄影,形成的诸多观念有相当的颠覆,比如焦段的概念。想起一年前,P30Pro“摄月”事件沸沸扬扬,甚嚣尘上,然而到了一年后的今年,看看华为XDFusion图像引擎上进行的这一系列技术描述,不免有种大梦初醒的感觉。“PS是对一张照片最起码的尊重”,既然我们都能接受在电脑上对照片后处理,那么手机将这件事情做好了,直接将结果呈现在我们面前的时候,为什么最开始大家都接受不了呢?连传统的RGGB三原色的捕捉都能被RYYB+算法所替代,连经典的RGB点阵显示都可以被QD-OLED技术所颠覆,这也许就是技术发展路上所要必须面对的质疑吧。从照片到“照骗”再到照片,在真实与更美的真实之间,我想大部分人都会选择后者吧。