第43卷  第16期 包 装 工 程
收稿日期:2022–03–08
基金项目:北京航空航天大学2022年度人文社科青年骨干支持项目
作者简介:马晓娜(1985—),女,博士,助理教授,主要研究方向为交叉学科创新设计。 通信作者:于茜(1991—),女,博士,副研究员,主要研究方向为计算机视觉。
基于多模态信息交互的智能家居设计研究
马晓娜1,张雨欣1,于茜2
(北京航空航天大学 a.新媒体艺术与设计学院 b.软件学院,北京 100191)
摘要:目的 针对界面、语音等单一智能家居交互模式阻碍用户自然体验的瓶颈问题,探索基于多模态信息交互的智能家居设计方法,实现智能家居更自然、友好的用户体验。方法 基于用户日常生活多模态的自然交互特点,探索一种以多模态为特征的智能家居信息交互模式,构建了面向智能家居的多模态信息交互设计框架,并对该框架中的构成要素、交互流程、模态组织方式及多模态信息的注意度、模态密度、模态结构配置进行分析讨论。结果 智能家居多模态信息交互实现了智能家居系统的主动性、交感化
信息获取和情境化的信息分析与反馈,对提升智能系统自主性,降低用户在交互过程中的认知负荷,以及实现更加自然、友好的用户体验有积极价值。结论 智能家居环境需要改变传统相对单一的人机系统信息交互方式,以多模态信息交互促进智能家居使用体验的最优化。 关键词:智能家居;多模态;信息交互;交互设计
中图分类号:TB472  文献标识码:A    文章编号:1001-3563(2022)16-0059-09 DOI :10.ki.1001-3563.2022.16.006
Smart Home Design Based on Multimodal Information Interaction
MA Xiao-na 1, ZHANG Yu-xin 1, YU Qian 2
(a.School of New Media Art and Design b. School of Software, Beihang University, Beijing 100191, China)
ABSTRACT: Aiming at the problem that a single smart home interaction mode based on interface and voice hinders the user's natural experience, this paper explores a smart home design method based on multimodal information interaction to achieve a more natural and friendly user experiences of smart homes. Based on the multi-modal natural interaction char-acteristics of user daily life, this p
aper explores a smart home information interaction mode characterized by multimodal-ity, constructs a multimodal information interaction design framework for smart home, and analyzes the elements, inter-action process, modal organization, attention of multimodal information, modal density, modal structure configuration, etc. The multimodal information interaction of smart home realizes the initiative, sympathetic information acquisition and contextualized information analysis and feedback of the smart home system, which can improve the autonomy of the in-telligent system, reduce the cognitive load of the user interaction process, and achieve a more natural, friendly user ex-perience. In general, the smart home environment needs to change the traditional single human-machine system informa-tion interaction mode, and promote the optimization of the smart home use experience with multimodal information in-teraction.
KEY WORDS: smart home; multimodal; information interaction; interaction design
20世纪90年代初,美国联合科技公司将建筑设备信息化、整合化概念应用于首栋“智能型建筑”,由此揭开了智能家居设计的序幕。以家居环境为平台,利用控制技术、自动化技术和信息交互技术的智能家居成为当今家居生活的发展趋势。
用户、环境与智能家居之间的有效信息交互是智
60 包装工程 2022年8月
能家居设计的关键。智能家居通过相应信息采集设备(如各类传感器、摄像头等)获取用户与环境信息,实时控制反馈以满足用户需求和应对环境改变。当前的智能家居主要依赖用户通过触控界面、语音或者手势等单一控制模态的主动输出、系统被动接收的方式获取指令。这种交互方式限制了用户在人机交互中的自然性需求,同时局限了智能家居系统在智能性上的潜力。因此,改变当前智能家居被动接收用户单一模态信息输入的旧模式,探索能够主动获取、加工及反馈多模态信息的新模式,将为创造更加自然的智能家居交互体验提供可能。
1 多模态信息交互
1.1 多模态研究
现代脑科学研究中以“模态”通指感官及其相应的神经系统[1],感官模态包括视觉(眼睛)、听觉(耳朵)、嗅觉(鼻子)、味觉(舌头)、触觉(皮肤)等“五觉”,以及其他如体觉、痛觉、痒觉、温觉、内脏觉、平衡觉等[2]。“模态”被认为是人类通过以上感官系统跟外部环境(人、机器、物件、动物等)之间的互动方式,上述“五觉”分别对应视觉模态、听觉模态、触觉模态、嗅觉模态和味觉模态等互动模态[3]。用单个感官进行互动叫单模态,用2个感官进行互动叫双模态,用3个及以上叫多模态。一种感官对应一种模态,以视觉为例,眼睛和处理视觉信号的神经系统组成一个视觉模态[4]。相
应的,多模态是指多个感觉器官和处理各自信号的神经系统。
从信息交互的角度看,模态是交流的渠道和媒介。社会符号学派认为模态是在社会文化中形成的创造意义的符号资源,是一种可被感知和阐释的符号系统,通常包括语言、图像、声音、空间和身体动作等不同形式[5],主要以符号系统的数量来界定多模态话语。在信息传递中,混合使用声音、图像、颜色、动作等不同形式的符号资源,这种多元意义呈现方式被称为多模态[4]。语言学家Norris[6]指出,人类互动具有多模态性。人际互动通过人的语言、表情、身体姿势、动作及与人相关的空间距离、场景布局、音乐、物体等多元化模态信息的协同使用来进行。
不同视角下,多模态研究的对象与方法各有不同,但其理论假设较为一致:一是多模态资源协同运作以表达意义和完成动作;二是每种模态资源或符号系统都有自己的组织系统。这为多模态人机交互的研究提供了基础。
1.2 人机交互的多模态转向
话语意义是由多种模态构成、传递和解释的,因此,人类交际中使用一种模态会同时触动使用另外一种或几种模态,例如使用口语交流时,通常还涉及注视、手势、身体姿势、身体距离等。人机交互也是基于相同的思维方式,用户向他人(包括计算机)发出信息,准确的话语意义往往是通过多种模态构成和传递的,计算机系统需要能够对用户的多模态信息分解识别,并通过融合分析进行用户意图的
准确把握。
单一模态的交互方式信息通量低,交互过程死板,难以满足用户自然交互的需求。增加人机互动模态是目前人机交互的主要研究内容之一。人机交互过程是一种多模态信息耦合交互的过程,涉及文字、图像、语音、动作等多种交互信息[7]。多模态人机交互就是人们使用多种感官模态,通过多种物理媒介,与计算机等机器进行多渠道、多形式的信息交互。例如仿真机器人让机器像人一样通过5种感官模态获取信息,以人的认知逻辑进行信息采集[8]。对智能系统来说,多模态人机交互的根本是依靠智能系统类人脑的多模态功能,在多种智能感官系统的支撑下,通过多模态协同机制实现多元信息的采集、分析、理解与意义的构建。
2 智能家居信息交互模式发展
2.1 智能家居信息交互传统模式
智能家居系统的感知与人的感官感知遵循相同的逻辑,给机器配上感官系统(即信息采集设备)从而模拟人的视觉、听觉、触觉等功能,通过手势识别、语音识别、触控界面等途径进行信息获取。
2.1.1  智能系统与用户交互
目前,智能家居系统与用户的信息交互中,主要依赖用户发出指令。用户基于智能系统的信息采集方
式选择单一模态的输入(如语音或者手势等)向智能系统发出指令,智能系统通过麦克风、摄像头和不同类型的传感器被动地接收用户指令,进行分析与反馈。
以语音辅助界面交互为例,基于语音交互的智能系统包括3个部分,即输入单元、处理单元和输出单元,见图1。第1部分,即智能交互输入单元,当用户发出语音指令,输入单元中的电子收音设备采集到语音信息,该信息将在语音模块中转化成文本信息。如果用户同步通过软键盘输入信息,输入单元的电子触摸模块通过其传感器会采集相关文本信息;第2部分,智能交互处理单元的人工智能模块接收到文本信息进行分析,根据原有数据库合成反馈信息;第3部分,智能交互输出单元中的语音合成模块接收到处理单元输出的反馈信息,将文本数据转化为语音数据,再通过音频输出设备向用户播放。
智能语音助手是智能家居最直接的信息交互载体之一。亚马逊的Echo系列是家庭智能语音助手典型产品。在新一代产品升级中,亚马逊在语音交互之外增加了触摸屏幕与摄像头,成为一个加入了图像识
第43卷第16期 马晓娜,等:基于多模态信息交互的智能家居设计研究 61
别(摄像头)和触控交互(触摸屏)的智能语音助手,让用户拥有了自由度更高的交互选择,亚马逊Echo 多模态信息交互见图2。
图1  智能系统与用户语音模态信息(辅以界面)交互流程Fig.1 The interaction process between smart home and user voice modal information (supplemented by interface)
图2  亚马逊Echo系列家庭智能语音助手多模态信息交互Fig.2 Amazon Echo series home intelligent voice assistant
multimodal information interaction
人脸识别也是目前智能家居中信息交互的重要模态,人脸识别基于专用摄像机进行主动探测,基于动态视频流识别用户身份,不需要用户主动配合,能快速精准地识别人脸信息。
随着互动技术的发展,通过身体交互实现姿态智能控制,逐渐成为智能家居系统与用户的主要交互方式。手势的手型、运动、位置、方位等协同言语和其他身体行为在日常会话互动中有效传递信息,表达意义。Alanwar等[9]面向智能家居环境,提出手势控制智能手表SeleCon,该设备使用惯性传感器进行指向手势检测,可以实现84.5%的设备选择准确率和97%的手势识别准确率。此外,通过脑电、眼动等信号读取用户意图成为一种重要的智能系统信息交互手段。Alrajhi等[10]开发基于脑机接口(BCI)的智能家居系统,通过Emotiv Epoc+检测用户的大脑信号,让四肢瘫痪的人仅使用大脑信号打开/关闭门,以减少对护理人员的需求。
2.1.2  智能系统与环境交互
目前,智能家居系统通过对环境中人的语音、体态、人脸信息,以及环境中的温度、湿度、光照度、
压力等信息的主动采集与分析进行自动化反馈。胡旭央等[11]研究智能家居场景中的睡眠场景,认为对智能家居场景中的光线、温度、湿度、气味等氛围要素,空间布局、规模、功能等空间要素,用户社交、服务关系等社交要素,以及数据的输入、输出等数据要素的关联设计十分重要,智能家居场景需要关注以上各方面的影响与相互作用,才能为用户提供良好的体验。
智能家居系统通过各类传感器和执行器监测、采集环境信息,通过分析环境数据的变化实现特定功能的控制。例如通过温湿度传感器、烟雾传感器、光照传感器等感知模块进行数据信息自动采集。在基于AVR的智能家居系统中,当温湿度传感器采集的温度超过了预设的阈值后,系统将向执行层的空调发送打开空调的命令以启动空调;当烟雾传感器探测发现烟雾环境异常时,系统将向通信模块发出报警信息。系统的主控层对传感层上传的数据进行分析及处理,然后向执行层发送控制指令。各模块的主要流程见图3[12]。
2.2 智能家居自主交互与多模态交互需求
2.2.1  智能家居自主交互
家庭环境有特殊的信息交互需求,用户希望在家庭环境中获得舒适、自然、安逸的生活状态,这需要智能家居设计中强化智能系统对用户与环境信息的主动获取,以提供更自然、更友好的人机交互体验。
Rose等[13]提出物体具有“感知的自主性”,这是一种“部分来自人们认为机器拥有和做的东西,部分来自被设计成机器的东西的属性”。Karthik等[14]优化智能系统任务分配方法,提出了新的任务分配技术,智能系统主动寻求任务分配来降低用户负担,实现人机平等的伙伴型无缝协作。Philipp[15]等将光纤传感器
62
包 装 工 程 2022年8月
图3  智能家居系统对环境信息的数据采集流程
Fig.3 Smart home system environmental information data collection process
及压电传感器集成到家庭环境的木地板中,通过室内定位、步数检测、步态分析、运动分析等监测住户位置及步数信息,让用户在自然行走中无意识输出信息,紧急事件发生时系统将自动启动救援程序。Wu [16]等提出基于异构传感器数据的智能家居非参数活动识别系统,系统通过集成环境传感器和体感传感器的异构数据来识别有意义的日常活动,无需用户标记参数,减少了用户负荷,实现适老服务。窦金花等[17]针对老年用户的任务、时间、环境情境提出了主动交互式语音用户界面设计,为老年用户提供了更加自然、舒适的智能家居产品使用体验。缪珂等[18]对新中产人群生活情景特征进行了分析,提出面向新中产人群生活情境的智能家居产品设计对策,认为智能产品应具备“学习”能力,能更好地自动捕捉、记录、适应个体的行为习惯。
通过对相关工作的整理,不难看出,智能系统交互的主动性是将来智能家居的发展方向之一。智能系统的主动性本身又涵纳多元问题,如前文所言,人的信息交互中,话语者需要借助多种模态信息来充分表达意图。同样,在智能家居的信息交互中,智能家居系统需要通过多元信息的获取与分析,来实现对用户意图和环境变化的准确判断。 2.2.2  智能家居多模态信息交互需求
多模态是信息交互的理想状态,用户与智能家居的交互,需要参考并利用大脑的多模态协同机制和人
与外界的多模态交互规律,开发服务于人的“理想状态”的相关技术。随着智能技术的发展,智能家居与用户及环境的信息交互必然走向“人(人工智能系统)与人(用户)”的多模态会话交互逻辑。
一般而言,智能家居环境中包含丰富的信息模态,如语音、图像、影像、手势、体感等。智能家居
对用户与环境的多模态信息获取,需要给机器配上感官系统(即匹配各种传感设备)以模拟人的视觉、听觉、触觉等功能,通过语音模块、界面控制、动作捕捉,以及温度、湿度等传感器等进行数据采集。智能系统作为居家会话中的参与方,需要协调多种传感装置、控制部件和相应的信息处理系统同时工作,处理用户和环境中的多模态信息。但是,现有的多模态信息交互系统,仅通过不同模态信号识别特定的操作指令,将不同模态的指令进行简单的串联与叠加。这种简单的“信号时序叠加”方式,并未考虑多模态信号之间的信息互补及增强特性,相对复杂的系统设置需要用
户记忆大量新的操作规则,增加了用户的认知负荷[16]。
因此,智能家居对用户需求的满足与环境变化的回应,需要对现场话语状况进行尽可能全面的、真实的数据采集,通过多媒体介质与多模态信息,力争捕捉用户与环境实时、完整的信息交互。在这方面,王
江涛等[19]通过研究用户的操作行为和认知行为,
获取用户对智能家居产品的功能和操作需求,提出基于用户行为的设计研究方法,对提高智能家居产品可用性、降低用户的认知负荷有积极价值。
3  基于多模态信息交互的智能家居设计框架
智能家居多模态信息交互基于多模态理论,将语言、图像、声音、动作等多模态信息整合成为最有效的意义表达,实现信息交互的准确传达和有效反馈。本研究提出一种具有多模态特性的智能家居信息交互新模式,并建立多模态智能家居信息交互框架。 3.1  智能家居多模态信息交互模型
真实世界中,多模态强调人作为主体通过身体和大脑调动多个感官、通过多种媒体协同参与信息交互
第43卷  第16期
马晓娜,等:基于多模态信息交互的智能家居设计研究 63
过程。而在智能家居信息交互中,智能家居系统被视作为“人”,通过多元传感设备调动智能系统“感官潜能”,获取用户及环境的多模态信息,促进多模态信息理解、意义构建与控制反馈。
在智能家居多模态信息交互中,包含对象、感官模态与解释3个要素,即以用户与环境为对象,以各种传感设备和信息获取硬件为感官模态,对获取对象多元化信息进行智能融合与分析;按照3个步骤开展
工作,即多模态信息获取、多模态信息融合与推理、
多模态信息反馈;这一流程性工作中,多模态交互技术按照互补、非互补的组合形式,共时、顺时的时序方式组合2个及以上的输入模式,借助多种非侵入式的传感设备,识别天然形成的人类语言和行为,最后通过多模态智联终端对用户需求与环境变化主动做出反馈。基于上述思路,结合多模态研究构建了智能家居多模态信息交互模型,模型见图4。
图4  智能家居多模态信息交互模型
Fig.4 Smart home multimodal information interaction model
3.1.1  3个要素:对象、感官模态与解释
1)智能家居的信息交互对象。在家庭环境中,智能系统的交互对象是家庭用户与家庭环境的多符号信息输出。用户信息包括身体与非身体信息,身体信息是通过语音、手势、面部识别、体感等方式输出,非身体信息是通过用户主动的界面操作等方式输出。环境信息方面包括可感知、可量化的变化,如温度、湿度、亮度和人等因素。在智能家居信息交互中,提高用户体验的路径是使智能系统主动寻求任务分配来降低用户负担,也就是强化智能系统的信息获取主动性。在此条件下,用户在遵循自然交互的身体逻辑下发出信息,相对随机地选择与组织多模态身体信息。用户可能会发出无意识的指令,
智能系统需主动识别、采集,以此减少用户信息交互负荷,实现用户在智能家居控制方式上的自洽。
2)智能家居的感官模态。人可以同时运用多种符号资源构成多模态信息展开交互,环境也同步具有温度、湿度等多维度数据变化。智能家居的多模态信息交互通过多感官感知,以及各种感觉系统间的联觉来开展工作。通过特定感官模态系统获取对应感官信
息,以视觉为例,视觉器官(摄像头或视觉传感器)
加上处理视觉信号的分析系统组成一个视觉模态。智能家居与用户及环境的一次信息交互过程中的感官模态可能是单一模态、或者是双模态、多模态。例如用户通过语音控制智能家居设备,但同时智能设备会获取语音交互的用户面部图像信息,如用户发出“播放歌曲”指令,智能设备同步识别该用户面部信息,结合系统数据库内置用户画像,精准推送该用户喜好的歌曲。在对这些多模态信息处理的过程中,智能家居系统通过多感官接收信息,多元传感与分析模块同步工作,以多模态的感官系统形成多模态的信息交互。
3)智能系统对用户和环境多模态信息的解释。用户的声音、手势、姿态、表情等多模态信息相互关联,以模态复合构成意指。智能系统对用户潜在意图或显性意图的准确反馈基于对用户需求的准确掌握。
一方面,用户信息模态互涉,即不同模态信息之间意义的相互阐释与呈现。智能系统需要根据模态互涉机制对获取信息进行解释。对多模态信息的互涉解释是目前智能交互技术的难点所在。目前能够对语音、文字和手势信息进行相对准确的解释。例如徐云平[21]通过语音识别硬件LD3320的语音识别特征库直

更多推荐

模态,信息,用户,交互,系统,智能,环境