让机器理解三维世界「商汤科技」畅想人工智能
发布时间:2020-01-20 19:31     浏览量:

  在上世纪70年代,工业界开始运用3D视觉技术测量和扫描物件,提高生产效率。最近10多年,家用游戏机厂商将3D体感外设带入大众视野,带来了新奇的体感游戏。近三年,越来越多的智能手机开始配备3D传感器,并在AI的加持下,开拓出了更多更具想象空间的应用场景。未来10年,AI+3D将无处不在,给我们的生活和工作带来深远影响。

  人类拥有与生俱来的3D环境感知和理解能力,这是因为我们用两只眼睛来捕捉图像,通过大脑处理形成立体视觉,从而辨认物体的形状方位、他人的动作,轻松自然地跟这个三维世界交互。2GR中文科技资讯

  能否让机器也能感知三维世界呢?或许很多人会想到给机器添加一颗摄像头。但普通RGB摄像头拍摄的现实世界的影像,仅能采集场景中的色彩信息,无法采集物体和摄像头之间的距离和方位。也就是说,无论场景中的三维结构有多么丰富,对机器来说都是一个平面,一个二维世界。2GR中文科技资讯

  3D视觉技术,就是赋予机器感知三维世界的信息和能力,并给我们带来颠覆性的价值。试想一下,将汽车立体模型通过增强现实(AR)技术投射出来,客户可360度观看,还能“开车门”,由此直观地提出意见,而不是一张张翻看照片;或者派无人机探索森林或洞穴,一边前行一边绘制周边场景的三维地形,而不是我们拿着一张平面地图亲自探险2GR中文科技资讯

  事实上,3D视觉技术目前已经在工业界取得成功,但在消费领域,受限于3D感知硬件的成本和体积、计算能力等困扰,很多场景并未激活。除了扫地机器人等个别终端外,我们的智能手机等移动设备,还处在二维世界里。但近几年,3D视觉技术终于开始走向个人终端,机器认知世界的新大门正在打开。2GR中文科技资讯

  实现3D视觉能力,3D感知硬件的加持至关重要。目前主流的3D感知硬件技术包括双目视觉、结构光、ToF(飞行时间)以及激光雷达。2GR中文科技资讯

  双目视觉系统是通过双摄像头同时进行成像,然后通过对比两个图像中每个像素点的相对位置差,来计算出该像素点在三维环境中的位置,类似于人双眼的工作原理。2GR中文科技资讯

  结构光和ToF则能在RGB的基础上直接提供深度信息,属于RGB-D方案,在精度上比双目视觉更胜一筹。其中,结构光是通过投射大量光斑到物体上,然后根据光斑的形变量来判断其所处深度;ToF则是向物体发射连续的光脉冲信号,并接收返回的信号,通过计算信号发射和返回的时间来计算深度信息。相比之下,结构光在较短距离内拥有更高精度,而ToF支持的工作距离更长,适用于更加多元化的场景,且传感器模块少,体积小。2GR中文科技资讯

  激光雷达的原理与ToF类似,但其感知距离更远,范围更大,精度也更高。很多自动驾驶汽车通过激光雷达来感知周围环境,不过缺点是成本过于高昂,只适用于特定场景。2GR中文科技资讯

  在最近的三年,我们观察到的一个显著趋势是ToF和结构光的小型化,使得它成功地应用到了手机当中。而ToF以其体积更小、适用场景更广等优势,逐渐受到更多厂商青睐,很多最新的旗舰手机都将ToF作为一大卖点。据统计,2019年有约5000万台配备ToF的手机出货,业内预计2020年、2021年将分别达到1.5亿和5亿台,逐渐呈现出爆发态势,2020年全球智能手机3D感知硬件市场的规模也将到达99.25亿美元。2GR中文科技资讯

  ToF在智能手机上的加速应用,有助于3D视觉技术的广泛普及化,成为接下来10年中非常重要的科技趋势。深入地触达消费市场,也激活了更多的应用创新可能。2GR中文科技资讯

  3D感知硬件能够提供距离、深度等数据信息,但我们要的并不是单纯的数据,而是基于这些数据,通过不同的表达和理解方式,实现不同的应用。比如对三维场景进行数字化建模,或者绘制三维地图,从而让机器能够实时感知自己在所处空间中的位置,以便在运动时及时避开障碍物等。这需要根据深度信息生成深度图像,并与RGB图像,甚至是红外图像进行融合并完成大量计算。2GR中文科技资讯

  但是,通过硬件感知的信息生成的深度图像,往往存在因硬件性能限制而产生的瑕疵,例如在细小或复杂交错的物体之间,出现深度信息估计错误等问题。此外,精准度、鲁棒性、实时性、效率等都是决定实际应用效果的关键。这都需要依靠额外的算法进行实时处理予以弥补和增强。2GR中文科技资讯

  在工业场景中,由于应用相对单一,且3D感知硬件大多处于固定或平稳状态,很多难题可以通过编写特定算法加以解决。但在移动终端上,不规则的抖动、晃动等情况带来的难以预估的挑战,传统算法难以突破。2GR中文科技资讯

  2012年,AI在计算机视觉领域取得突破,给3D视觉技术发展也带来了全新思路。AI可通过对大量实际数据进行学习,自行总结其中的规律和特征。这种方法可以在短时间内,完成传统算法需要多年才能突破的问题,有效弥补硬件能力的不足。2GR中文科技资讯

  更为重要的是,AI不仅能感知场景中的三维结构,还能识别出场景中的三维物体是什么,在做什么。例如检测人、物体,识别人的姿态,跟踪物体的运行轨迹这就进一步敞开了机器认知世界的新大门。2GR中文科技资讯

  在我们看来,3D硬件的小型化,是3D视觉技术应用场景拓展和创新的硬件基础,而AI技术则是真正的动力引擎。两者密不可分,可以说,AI+3D视觉技术拐点已至。2GR中文科技资讯

  目前,商汤科技已经将AI技术广泛地应用于3D感知的各个领域,开发了基于ToF等3D感知硬件的技术与产品,包括人脸与人体3D重建、物体重建、3D全身关键点跟踪、3D Avatar驱动工具、AR测量、AR场景互动、AR导航、3D人脸认证、3D摄影等等,均体现了AI+3D的显著优势。2GR中文科技资讯

  首先,AI+3D可以进一步优化感知效果,提升用户体验。以动作捕捉为例,结合对深度信息的高效处理,能够整体提升肢体关键点的稳定性、准确性以及运动的稳定性和自然度,精准呈现人在三维空间中的动作姿态变化;2GR中文科技资讯

  第二,AI+3D可以更加高效地应用和处理深度信息,理解环境中人物间的相互关系。例如为AR带来逼真的虚实融合和互动效果,在智能手机上完成高精度3D模型建模,或是为自动驾驶提供车外的人、车、物的识别和距离感知。2GR中文科技资讯

  第三,AI+3D可以更加精准地分割图像中的主体和背景。特别是在主体和背景颜色比较相近的情况下,得益于对深度信息的快速处理,在分割效果上比2D感知技术有很大的提升,可提供不同人物之间的语义信息,亦可结合3D相机系统带来更逼近单反的摄影效果;2GR中文科技资讯

  第四,深度信息与红外图像的结合,可以让3D感知适用于更多的场景,使之不受环境光线GR中文科技资讯

  比如,通过AI+3D进行“物品重建”。商汤科技的通用3D重建技术,让用户只需拿手机沿着物体360度环绕扫描,就能将其扫描成数字模型,并用于3D打印、3D/AR相册预览、短视频直播内容生成,或植入到游戏、电商商品展示等场景。特别是后者,它可让顾客通过翻转方式查看物品外观,告别翻看照片的麻烦。

  放眼汽车行业,AI+3D技术能够实现更加精准的车外人、车、物识别和距离感知,有力推动自动驾驶的发展。商汤科技也正以“摄像头为主、多传感器融合”的解决方案,研发L4级自动驾驶解决方案。而在泛工业领域,AI+3D可以为机械臂赋予3D感知能力,准确判断物体所处的位置、尺寸、形状等,从而进行精准的抓取,或是进行自动化的品质检测。

  《Prediction Machines》一书中曾提到:“当某种基础产品价格大幅下降的时候,才是整个世界发生变化的基础”。3D视觉技术呈现出的也是这样一个趋势。放眼未来,3D视觉技术还有更多创新空间。首先硬件成本的下降使其更加普及,支持的工作距离更远,而AI技术随着表达能力将不断增强,算法模型的小型化等趋势,可让深度信息处理更高效,3D效果更逼真、更稳定,性能更快,同时硬件资源占用率更低。一方面不断优化现有应用的体验,另一方面进一步开拓更多应用可能。

  分享到微信相关稿件科技新闻无相关信息推荐11月11日讯,工信部印发《携号转网服务管理规定》,规定自2019年12月1日起施行。规定要求电信业务经营者在提供携号转网服务过程中,不得为携号转网用户设置专项资费方案和营销方案,不得采取拦截、限制等技术手段影响携号转网用户的通信服务质量等。

    万达娱乐在线注册,万达娱乐用户注册,万达娱乐国际在线,万达娱乐怎么样
  万达娱乐在线注册,万达娱乐用户注册,万达娱乐国际在线,万达娱乐怎么样

网站地图