EN
您现在的位置:首页> 新闻资讯> 行业新闻

机器之“眼”:视觉技术在智能化产品设计中的应用

2023-02-21

内容摘要

 

本文旨在探讨智能化产品设计中对视觉技术的结合与应用问题。对智能化产品设计案例的研究表明,通过对人工智能、深度学习、计算机视觉等前沿计算机理论技术的突破与创新,结合生活中的实际需求与用户体验问题,往往可以创造出突破性的智能化新产品;通过对产品设计心理学模型的分析与补充,提出IDUPM模型,并以视觉技术为技术的切入点之一,以更好地指导智能化产品的设计。作者由此指出,设计师应加强从设计学科到交叉学科的跨学科知识的理解与转化,从技术创新到围绕“用户需求”和“价值创造”的产品化认知,进而更好地推动设计师设计出更多真正有用的智能化产品。

 

关键词:视觉技术、产品设计、用户体验、智能化

 

2020年,我国人工智能核心产业规模达到1512亿元人民币,以深度学习、计算机视觉等为代表的对前沿计算机理论技术的突破与创新,正在引领全球人工智能技术的第三次浪潮。相比于上世纪50年代和80年代的第一次、第二次人工智能浪潮,在云计算、大数据等计算机底层技术的进一步巩固和推动下,第三次人工智能浪潮开始更多地思考、发现和解决诸多生活中的应用问题。随着消费升级、智能化转型等多种市场因素的刺激,越来越多的智能化产品开始出现在生活的各类场景中,为创新的产品设计提供了更多可能。与此同时,象征着机器之“眼”的视觉技术迎来突破式发展,诸如“扫地机器人”“行车辅助驾驶系统”“人脸识别支付技术”等代表性的产品层出不穷,成为新一代人工智能产品化的典型应用。本文深入解析了以视觉技术为代表的人工智能技术发展的突破与创新,典型的智能化场景应用案例等,基于产品设计的心理学模型,提出IDUPM模型,并以视觉技术的智能化产品设计实践为主要案例,探讨当下智能技术的产品化路径。

 

1机器之“眼”:视觉技术的突破与创新

 

人类接收的外界信息有约70%是通过视觉方式获取的。如图1[1]所示,环境的图像信息以光线为载体,投射到人眼的视网膜上。视网膜上的光感受细胞完成信号的光电转换,再经过突触神经元和神经通路被传递至大脑皮层,经初级视觉皮层和高级视觉皮层进行深度加工和解读,最终信息被传递给其他大脑负责决策的区域,并最终反馈为各种行为。

 

图1.人眼视觉工作原理

 

近些年,随着人工智能技术的不断推动与创新,各类传感技术、芯片技术等使得机器视觉技术得到了突破式发展,通过设计、建立、模拟生物学人眼的信息接收、传递、处理等机制,使得机器视觉越来越像人类的视觉一样:光学传感器通过集成感光元件,负责采集环境信息,然后经过专用化集成电路、图像传感器芯片设计获得有效的图像像素阵列数值,通过建立数值与信息的映射关系,最终反映到机器的各种对应行为上,成为名副其实的机器之“眼”。(图2[2])

 

图2.机器视觉工作原理

 

根据视觉技术对环境信息的加工、处理的分工不同,可以大致分为两类:感知技术和认知技术。感知技术依赖光学传感器收集环境信息,根据传感器的类型,获取的视觉图像形式和深度存在一定差异。例如二维视觉图像、三维深度图像和红外光谱图像等。根据处理的任务不同,选择对应类型的传感器以感知需要的环境信息。因此捕获精准的视觉信息是感知技术的关键,这需要结合光学传感器的硬件部分与感知算法部分的结合,其中硬件部分包括CCD、CMOS感光摄像头、结构光摄像头、红外光谱仪等;感知算法,如图像深色感知算法[3]、压缩感知算法[4]等,从而建立精准的图像与数据间的映射。感知技术是对环境信息的选择性收集和整合。认知技术是感知技术的延伸,是对视觉信息更深层次的加工,以实现更准确的理解,进而为决策提供更有效的反馈。认知的过程类似大脑对视网膜传递信息的加工,往往采用集成算力更强大的芯片和图像算法来理解视觉信息,基于图像的特征及变化判断位置移动、距离、意义等。常见的如基于深度学习算法对车辆种类、车牌号进行分割提取与自动识别技术[5],基于卷积神经网络对人脸进行比对与安全验证技术[6]等。相比于感知技术,认知技术是对视觉信息的深度处理。

 

随着人工智能技术的发展,视觉感知和认知技术相继取得了关键性的技术突破。例如,同步定位地图构建技术(Simultaneous Localization and Mapping,简称SLAM)使得机器可以获得更为精准的实时位置移动信息并构建环境地图;基于深度神经网络的图像识别技术可以大幅提升人脸识别、目标物体检测的准确度。视觉技术的突破与创新正快速成为包括人工智能、智慧城市、机器人、安防、数字娱乐等领域的重要研究内容,为智能化产品的创新设计与应用提供重要支撑。

 

 

2视觉传感器:从技术载体到产品特色

 

1837年,法国发明家、艺术家达盖尔发明了世界上第一台照相机,包括暗箱、镜头及感光材料,可以被看作最早的视觉记录装置。自此,人类对生活中各类影像得以被物理化地记录和保存,摄影成为一种新的艺术表现形式。上世纪70年代,CCD、CMOS等感光芯片技术及数字照相机、摄影机的出现,又开启了数字化影像、视觉传感的新领域,为之后的计算机视觉、图像处理、影视动画等提供了丰富的研究素材。进入21世纪,随着光栅衍射元器件和激光投射器的发展,三维传感器如激光雷达、体感游戏机开始被广泛应用于自动驾驶、移动机器人、娱乐交互等热点智能化领域,带来了更加丰富的应用场景。视觉传感器作为技术的载体,为新的艺术表现、研究领域、智能化产品的创新设计,提供了更多可能。

 

视觉传感器,也称光学传感器,主要由光学元件、成像装置及芯片等组成,以获得环境中的各类图像信息。作为视觉技术的载体,视觉传感器一直是推动视觉技术进步的重要部分。根据图像数据的特点,视觉传感器可大体分为传统单目视觉传感器和三维立体视觉传感器。单目视觉传感器,即我们日常使用的单手机摄像头,监控摄影机、照相机等,主要利用CCD、CMOS等感光芯片,将三维环境中的颜色信息投影到二维图像上,进行数字化记录及存储;三维立体视觉传感器,是指利用两个或多个视觉传感器组合,通过立体视觉算法、结构光光斑标定算法、飞行时间算法等获得并记录每幅图像上的距离信息。例如带有人脸识别解锁功能的手机前视摄像头、具有体感识别交互功能的Kinect游戏机(由美国微软公司于2010年推出的第一代体感识别交互传感器)[7]等视觉传感器的出现、演进及创新,为智能化的产品设计提供了新的特色与差异化区分。

 

以智能手机后置摄像头传感器的发展(图3)为例,可以看到:2010年,美国苹果公司在iPhone4配置了后置单颗500万像素摄像头;诺基亚于2012年推出的主打拍摄功能的手机直接将像素参数提升到了4000万;随后的2013年三星进一步升级推出了可实现大范围变焦拍摄功能的新款手机。随着智能化技术的发展,智能手机的摄像功能也出现了新的亮点:2018年,国产品牌华为首次在其新款手机Mate20 Pro实现了后置主摄像头、超广角、广角摄像头的三颗镜头组合,提升拍照及取景效果的同时,该摄像头的多颗排列组合成为其旗舰智能产品的一大亮点。此后,众多智能手机厂商开始陆续在自家产品中引入多颗摄像头组合,提升其产品的核心竞争力。在iPhone13 Pro中,美国苹果公司在超广角、广角、长焦三颗摄像头组合的基础上,再次升级引入了LiDAR技术镜头,可实现精准测距及三维扫描,拓展了该手机的娱乐及交互体验,进一步提升了产品的竞争力,创造了新的智能产品卖点。

 

图3.手机后置镜头演进

 

3-1.2010,iPhone4,单颗500万像素摄像头

3-2.2012,诺基亚808,单颗4000万像素摄像头

3-3.2013,三星GalaxyS4,Zoom,单颗1600万像素摄像头,24毫米超广角摄像头

3-4.2018,华为Mate20Pro,4000万超清主摄像头,+800万长焦摄像头,+2000万超广角摄像头

3-5.2020,OPPOReno4Pro,4800万超清主摄像头,+1300万长焦摄像头,+1200万超广角摄像头

3-6.2021,iPhone13Pro,1200万像素摄像头系统,包含长焦、广角及超广角镜头

 

视觉传感器经过近年的快速发展,已经不仅作为技术载体成为智能化产品设计中的功能特色与亮点,更是抽象成为一种设计“符号”,代表了用户心中智能化产品的旗舰配置与高端选择。

 

3视觉交互:新的人机交互场景设计

 

基于视觉的交互具有主动性,类似人眼具有的主动适应性,应用视觉技术的设备可以自主地选择、识别以及跟踪环境中的目标信息,进而实现更自然的人机交互场景。基于视觉技术的交互具有以下特点:

 

1.矢量性:由于视觉技术可以检测图像中的目标物体,并实现目标跟踪,当目标在视觉范围内移动时,可以轻松捕获目标的移动方向、移动距离;进一步,当目标移出视觉范围后,可以通过主动调整机器姿态、联动其他机器对目标进行搜索,以实现目标的重捕。如近年来火爆的用于影视制作后期的基于大范围场景人体动作捕捉及提取的虚拟现实场景渲染技术。

 

2.非接触式:不同于触觉、嗅觉等需要对被测物体的直接接触,通过视觉技术的交互是一种非接触式交互,环境中的目标物体的任何动作变化都可以通过识别做出对应的反应。例如基于动作识别的沉浸式交互装置(图5),设计师设计了一个“能量场”空间,通过视觉技术识别每一位访客的移动,地面影像会随着访客的步伐在地板上行成一条色彩斑斓的道路,实时改变场景中的动画及影像,进而打造沉浸式的空间体验。

 

图4.2019世界政府峰会EDGE OF GOVERNMENT沉浸式互动展

 

图5.某超市购物结算场景中的人脸识别支付

 

3.安全度高:基于生物信息,如人脸、特殊动作的视觉识别的高安全性,目前已经被广泛应用于用户数字钱包账户的支付信息验证,从而创造了全新的支付方式。2015年,支付宝推出全新支付功能“人脸识别支付”,相比于传统的货币支付、信用卡支付、二维码支付、指纹支付等,人脸识别支付带来了更自然的支付场景的交互方式。

 

因此,设计师在设计基于视觉技术的智能化产品时,通过对视觉交互技术的特点进行解析,将有助于提出创新的人机交互场景,为用户带来更好的产品设计体验。

 

4IDUPM:建立智能化产品设计的心理学模型

 

唐纳德·诺曼(Don Norman)在《设计心理学》(The Design of Everyday Things)一书中提到,设计师进行产品设计需要符合包括设计模型(Design Model)、用户模型(User's Model)和系统/产品(Product)表象三个方面的心理模型(DUP Model)。(图6)设计模型是指设计师头脑中对系统(产品)的概述;用户模型是指用户所认为的该系统的操作方法。在理想状态下,用户模型应与设计模型相吻合,用户和设计师之间的交流只能通过系统(产品)本身来进行。也就是说,用户需要通过系统的外观、操作方法、对操作动作的反应,以及用户手册来建立概念模型。在经典的心理学模型中,用户所获得的有关产品的全部知识都来自于系统表象。

 

图6.产品设计心理学模型的三要素

 

对于智能化产品设计而言,虽然经典的心理学模型依旧具有普适的理论指导意义,但由于其过于强调系统(产品)表象的重要性,忽略了产品本身,特别是智能化产品具有的感知、记忆和思维、学习和自适应,甚至行为决策能力,可以主动建立与用户、设计师之间的连接。因此,经典的产品设计心理学模型难以为当下的智能化产品设计提供更优的实践方法指导。

 

笔者认为,对于智能化产品的设计,设计师不仅需要理解和使用系统(产品)表象,更要充分挖掘智能化中技术的特点并加以利用,从而更好地与用户之间建立交流。以视觉技术的分层设计为例,如图7所示,基于视觉的感知技术、认知技术、交互和产品表现分别与分层设计模型中的感知、决策、执行、应用一一对应,通过充分理解、分析视觉技术在每一分层中的作用、功能及特点,可以更好地帮助设计师对产品进行功能定义、体验优化,以实现更好的产品设计。

 

图7.视觉技术分层设计模型

 

为以视觉技术为代表的智能化产品设计建立产品及系统的深层技术分层设计,可以有效地补充经典的产品设计心理学模型对于智能化产品设计实践方法指导的不足。因此,笔者基于此,提出了基于智能化的产品设计心理学模型IDUPM(Intelligent Design-User Product Model)。其中,智能化(Intelligent)部分如图8所示。对于智能化的特点,一些学者对其进行了概述:能够感受外部世界、获取外部信息的能力,这是产生智能活动的前提条件和必要条件;能够存储感知到的外部信息及由思维产生的知识,同时能够利用已有的知识对信息进行分析、计算、比较、判断、联想、决策;能够通过与环境的相互作用,不断学习积累知识,使自己能够适应环境变化;能够对外界的刺激做出反应,形成决策并传达相应的信息。[8]由于智能化的特点和人工智能技术的发展密切相关,几乎涉及芯片半导体、计算机算法、光学传感、新材料化学等各个领域的最新研究与理论创新,因此对智能化产品的设计师提出了更高的对跨学科知识的理解与转化的要求。

 

图8.IDUPM基于智能化的产品设计心理学模型

 

IDUPM要求设计师进一步理解和关注系统(产品)深层的智能化,引导设计师挖掘智能技术的深层次意义,通过解析和利用算法、传感器、交互行为等方面的创新,将其更好地反馈在与用户模型的交流中,这一点和经典的产品设计心理学模型一致。在进行智能化产品设计时,IDUPM更关注系统(产品)深层的特点,具有可操作性:从智能化的内在属性映射到系统(产品)的行为,进而引导到与用户模型的交流和与设计模型的再优化,形成一个类似生物学个体的“智能体”反馈机制。

 

笔者在对家用扫地机器人的研究和产品开发中,就使用了IDUPM的设计模型。通过视觉技术获得的“地图构建、视觉定位”功能通过“摄像头+计算芯片”的方式设计封装到一个嵌入机器人的独立模块中。通过感知层的视觉信息采集,传递经过决策层对该信息进行对比、分析、计算,从而获得扫地机器人在工作过程中的位置移动信息,进而在决策层设计出相应的路径规划及障碍物躲避方法,帮助机器人自主地对家庭环境进行规划清扫。此外,通过视觉技术获得的机器人“地图”信息通过手机端可视化的方式将其工作状态、家庭地图实时反馈在用户的联网智能设备上,用户亦可通过联网智能设备反向影响和控制机器人的工作模式、任务类型等,增加用户与机器人的交互性。Shark Ninja品牌的IQ系列家用扫地机器人就是在上述设计方法下,基于视觉技术成果的直接转化。该产品一经上市,就获得了当年度最受消费者喜爱的电子产品的称号,单款产品销售规模超过200万台。IDUPM是对经典的产品设计心理学模型在智能化产品设计中的有效补充,具有明确的转化路径和方法指引。

 

 

 

 

图9.Shark Ninja IQ系列家用扫地机器人

 

5用户需求与价值创造:智能技术的产品化路径

 

对于智能化产品设计研究而言,挖掘系统深层的智能化特点并加以利用,并非产品设计的目的,而是作为笔者通过以往智能化产品设计总结补充的启发性智能化产品设计方法。而无论是传统的产品设计,还是智能化产品设计,应始终围绕着“用户需求”和“价值创造”展开,否则就会出现“为了设计而设计”的“畸形”现象和产品。

 

1.满足用户需求是所有产品设计的初衷,即产品是有用且可用的。赋予机器人智能化最主要的初衷就是帮助用户解决“能做却不愿意做”,或者“做不了”的事情。例如地面清洁,是一件需求频次极高的家务劳动,过去一直由家庭成员使用某种清洁工具,如拖把、吸尘器等完成,除了耗时耗力,也会给人一种不愉快的心理体验,因此常常被当作家庭劳务中的“惩罚性”工作被分配给家庭成员。集成视觉技术的智能扫地机器人,不仅可以轻松实现全局规划、导航定位,高效地执行清洁工作,满足用户不费时不费力完成地面清洁的需求,也让用户从心理上获得了一种智能化产品所带来的因“操纵”而愉快的体验感。

 

2.围绕价值创造,需要设计师思考智能化产品为用户创造的价值“差异性”和“唯一性”,即:为什么一定要选择这个产品?这个产品的功能是否是不可替代的?例如,带有视觉识别功能的驾驶员智能辅助行车记录仪,除了具有日常的行车数据、影像记录外,位于记录仪后方类似手机的摄像头可以通过对驾驶员人脸进行定位,然后计算眼睛的精确开度,判断人眼的状态,从而达到较高的驾驶员疲劳度检测水平。[9]当记录仪识别到驾驶员的疲劳程度达到一定临界值时,就会发出警报,提醒驾驶员停车休息。疲劳检测这一功能是目前基于视觉认知较易实现,也是较为实用的技术之一。据公开信息,2021年疲劳驾驶发生交通事故占全国交通事故总量的21%,而疲劳驾驶发生交通事故的死亡率高达83%。因此智能辅助行车记录仪对驾驶员的疲劳监控及检测,可以大大降低事故率,从而更好地保护驾驶员的生命安全。这一功能创造了该产品区别于一般行车记录仪的价值唯一性和必需性。对于“用户需求”和“价值创造”的把握,是每一位设计师在进行智能化产品设计时需要关注的最为重要的产品化路径,因为这两点最终决定了用户是不是愿意为我们设计的产品付费和愿意付出多少金额来购买,而这也是衡量一款新产品是否被用户接受的重要指标。

 

5结语

 

在第三次人工智能技术浪潮的推动下,芯片半导体、计算机算法、光学传感、新材料化学等各个领域不断涌现突破性技术和前沿创新理论。随着各大科技公司、创新创业企业将这些新技术赋能到传统产品中,出现了“智能化产品”这一新的产品类别。一直以来,视觉都是人类最重要的认识世界和理解世界的感官,也是推动人类社会进步的重要信息组成,这一点同样适用于智能技术和智能化产品的进步。带有拍照自动建模功能的智能手机,带有精确人脸识别功能的支付机,带有自主识别、全局规划等功能的家用清洁机器人等新产品相继面市。其天然具有的智能化属性,也对当下智能化产品的设计师提出了更高的要求——设计师需要深刻理解产品深层的智能化特点,结合智能化在感知、执行、决策等层面的特点,建立更为符合智能化产品设计的心理学模型,以更好地通过产品和用户进行交流。

 

值得一提的是,在新一代人工智能技术“浪潮”中,视觉技术的创新性突破最为引人注目。大家所熟知的深度学习算法、同步定位地图构建算法皆在视觉技术领域被率先突破,引发了新一轮的智能化产品设计的“高潮”。2017年7月,由国务院印发并实施了《新一代人工智能发展规划》,其中特别提到“大力发展人工智能新兴产业,加快人工智能关键技术转化应用,促进技术集成与商业模式创新,推动重点领域智能产品创新”,专门列举了以智能软硬件、智能机器人、智能终端为代表的新兴智能化产业机会。因此,对于智能化产品的设计和创新,同样也是时代赋予设计师的新的发展机遇。

 

尽管对智能化的理解及其与设计的关系,每一位学者的论证、切入点都各有不同,通过设计研究对产品化的转化路径方法也各有不同,但是初衷和目标是一致的,即通过设计师对产品的设计与优化,为用户提供独特的价值,解决用户的需求。无论如何,智能化仅仅是设计师为设计出更好的产品所使用的手段和工具,设计师对日常生活中知识的理解、吸收、挖掘、转化才促进了产品的设计与创新。而以视觉技术为代表的日新月异的智能化技术,尤其值得当下设计师关注,以不断汲取新的设计灵感,进而创造出更好的创新产品,满足用户日益增长且多种多样的需求。

 

注释:(向上滑动查看)

[1] Hong S , Cho H , Kang B H , et al. Neuromorphic Active Pixel Image Sensor Array for Visual Memory[J]. ACS Nano, 2021, 15(9).

[2] 同[1]。

[3] Zeng X , Tong S , Lu Y , et al. Adaptive Medical Image Deep Color Perception Algorithm[J]. IEEE Access, 2020, PP(99):1-1.

[4] Li S , Chi M , Zhang Y , et al. Methods, Apparatus, and Systemsfor Localization and Mapping[P]. US10782137B2, 2020.

[5] 周云、胡锦楠、赵瑜、朱正荣、郝官旺:《基于卡尔曼滤波改进压缩感知算法的车辆目标跟踪》[J],《湖南大学学报》(自然科学版),2022年6月13日,第1-10页。

[6] Li Yanyi et al. Research on Deep Learning Automatic Vehicle Recognition Algorithm Based on RES-YOLO Model[J]. Sensors, 2022, 22(10) : 3783-3783.

[7] Zhang Z . Microsoft Kinect Sensor and Its Effect[J]. IEEE Multimedia, 2012, 19(2):4-10.

[8] 邓颖娜、朱虹、李刚等:《多相机环境下基于颜色不变量和熵图的目标识别》[J],《计算机辅助设计与图形学学报》,2009年第6期,第5页。

[9] 邵雨辰等:《使用手机前置摄像头的机动车驾驶员疲劳检测》[J],《信号处理》,2015年第31卷第9期,第1138-1144页。

 

来源:《装饰》2022年第9期

原文:《机器之“眼”:视觉技术在智能化产品设计中的应用》

作者:王港,清华大学未来实验室;陈震(通讯作者),清华大学美术学院

联系我们