在互联网发展的早起阶段,大部分交互通过电子屏幕完成,人们阅读屏幕上的文字与指令,在通过操纵鼠标或者触摸屏幕来进行指令的下达和完成。涉及的人体感官太多局限在“视觉”与“简单的肢体动作”。而现在物联网“万物可物联”的思潮使得越来越多产品可以通过多样化的方式进行交互。例如使用语音、手势、眼动进行操作,“屏幕”这一载体并不是必须环节。这个过程中人们开始使用自己的听觉、触觉、乃至味觉、嗅觉等多个感官进行与互联网的交互,这样的交互方式就是“多模态”设计。“多模态”设计有以下趋势:

    1. 拓展了交互的方式,使得交互脱离冷冰冰的点子屏幕,更加具有人性化。
      1. 苹果的Siri、天猫精灵、小爱这一类“语音交互”产品的出现是典型的“多模态设计”。过去,人们通过音响播放歌曲要经过“开机、载入唱片、挑选歌曲、选择播放、调整语音”等等步骤,而通过多模态设计,人们 ,只需要一句话“小爱同学,播放XX歌曲”即可完成一个交互过程。同时,这些产品会给予用户更加私人化、人格化的反馈。例如通过分析你的听歌喜好,主动为你播放你感兴趣的歌单、亦或者是在深夜使用语音提醒你“主人应该休息了”,这种自然化、拟人化的交互方式比单纯的屏幕文字提示更能创造美好的用户体验,让UX更加有人情味。
    2. 对于特定的障碍群体更加友好,践行互联网时代“平等、友好”的交互原则。
      1. 传统的交互方式对于一些特定的人群并不友好。例如:盲人看不见屏幕,也无法对这类交互做出掌握,又比如一些复杂的操作对于老年群体具有较高的学习壁垒。而多模态设计可以帮助一些特定人群解决他们的需求。比如,语音交互可以让盲人听觉接受信息,AI/其他拟真交互方式可以让老年人使用自己习惯的日常行为来对机器进行操作,使用自动驾驶技术的汽车可以让身体残障人士也能驾驶汽车…..
      2. 技术也应该更好地为人服务,而多模态设计可以让每个群体都使用自己擅长/喜好的感官、动作进行对机器的操作,到了传统千篇一律的交互方式。
    3. 目前,许多交互仍然是“单拟态”,但逐步向多拟态进化。多样化的交互方式带来了更多的发展机遇,是“万物智联”发展趋势中值得重视的研究领域。
      1. 现在,许多商家已经开始了“物联网”的尝试,但很多交互方式仍然是“单拟态”的,只是从传统的“看、点击”变为了“语音”“手势”。例如,几年前开始兴起,至今方心未艾的“智能家居”。其实智能家居的本质就是研究人在自然状态下的行为,让这些行为自然地与机器进行交互,减少额外的付出和劳动,但现在许多智能家居仍然类似传统家居+语音识别模块的设计。再例如一些厂家推出“智能汽车”可以读懂司机的状态,通过搜集人的表情、肌肉走向信息,进行机器学习后来判断驾驶员与乘客的精神状态,并及时给出提示、警告等反馈,但其实更像一个不成熟的灵敏导航器。而多模态应该更注重于如何将单模态信息进行整合,这个过程需要强大的算法支撑,也需要计算力度的提高。因此,物联网的未来发展中,深度学习、机器学习与现实生活的数字化是重要提高的研究课题。