导语:在人工智能技术日益渗透到各个行业的今天,其在用户体验(UX)评定中的应用亦变得愈发重要。那样怎样经过主动式对话AI助手来优化用户体验评定呢?今天给大众带来Emily Kuang等人发布于CHI上的一篇文案《Enhancing UX Evaluation Through Collaboration with Conversational AI Assistants: Effects of Proactive Dialogue and Timing》。欢迎大众跟随博主的步伐,探索AI意见机会与方式对用户体验分析的影响。
快
速
阅
读
版
科研背景:
传统的可用性测试是发掘交互系统中可用性问题的重要办法,但分析测试视频既繁杂又资源密集。随着人工智能(AI)技术的进步,科研人员起始探索人类与AI合作进行UX分析的可能性,尤其是经过自然语言的方式。 科研目的:探索主动式会话人工智能助手在区别时间点供给自动意见针对用户体验(UX)评定者分析可用性问题的影响,尤其是比较这些意见在潜在问题出现之前、同步时和之后显现时的效果,并评定这种合作方式对分析性能、用户信任和效率的影响,以及怎样优化AI辅助工具的设计和功能,以加强将来在UX评定中的人类-AI协作。科研过程:经过一项混合型Wizard-of-Oz科研,招募了24名UX评定者,运用ChatGPT按照可用性测试视频的转录文本生成自动问题意见,并经过真人演员(即wizard)回复评定者即兴提出的问题。科研设计了三种区别的意见机会要求——在潜在问题之前、同步时和之后——以评定这些机会对评定者分析行径的影响。参与者在分析视频时,会按照预设的时间点接收到自动意见,并经过聊天窗口与AI助手互动,表达她们对意见的同意、纠正、澄清请求或区别意。科研经过定量和定性数据分析,探讨了自动意见的机会对UX评定者分析性能和主观感知的影响,以及她们对AI生成意见的反应和接受程度。
科研结果:
自动意见的机会对UX评定者识别问题的总数无明显影响,但大都数参与者更倾向于在潜在问题出现后接收意见,这种机会的安排明显加强了她们的信任感和效率。尽管参与者认为ChatGPT生成的自动意见有用,但她们自己发掘的问题数量是AI的两倍以上,这显示人类专业知识在UX评定中仍然不可替代。另外,参与者对自动意见的响应多种多样,包含同意、纠正、请求澄清和区别意,其中77.6%的意见被接受。科研还发掘,尽管ChatGPT能够识别出有些关联的可用性问题,但它错失了58.8%的由参与者集体识别的独特问题,这强调了在UX评定中结合人类专业知识和AI工具的重要性。
PART01 科研介绍 在数字化时代,用户体验(UX)评定作为了保证制品质量和用户满意度的关键环节。然而,传统的UX评定办法,尤其是对可用性测试视频的分析,常常既耗时又耗费资源。随着人工智能(AI)技术的飞速发展,科研人员起始探索怎样利用AI来辅助UX评定,以提有效率和准确性。在这一背景下,主动式对话人工智能助手(CAs)做为一种新兴的工具,展现出了在UX评定中供给实时反馈和意见的潜能。这些AI助手能够经过自然语言处理与UX评定者进行交互,从而在评定过程中供给辅助。本文探讨主动式对话AI助手在UX评定中的应用,尤其是它们在区别时间点供给意见对评估者分析性能和主观感受的影响。科研的核心问题是:在可用性问题出现之前、同步时和之后供给自动意见,哪种机会更能有效提高UX评定的效率和质量?为了回答这一问题,科研者们设计了一项混合型Wizard-of-Oz实验,经过模拟AI助手与UX评定者的互动,来深入理解AI在UX评定中的辅助功效。文案提出了以下两大科研主题:1.AI自动生成意见的时间怎样影响UX评定者? 1.1 分析性能(例如问题数量) 1.2 主观感受(例如,效率、用户信任)2. 收到AI自动生成的意见后,UX评定者怎样反应? 2.1 对这些意见做出回复(例如,同意或区别意) 2.2 评定这些意见的质量(例如一致程度、完整性)PART02科研办法与过程
为了深入探索主动式对话人工智能助手(CAs)在用户体验(UX)评定中的功效,本科研采用了混合型Wizard-of-Oz实验办法。这种办法结合了AI技术和真人干涉,以模拟AI助手与UX评定者的互动。科研的第1步是招募了24名拥有区别UX评定经验的参与者,她们将对三个区别制品(一个博物馆网站、一个食品配送应用和一个虚拟现实游戏)的可用性测试视频进行分析。
在实验中,科研运用了ChatGPT,这是一种基于大型语言模型(LLM)的生成性AI工具,来自动生成关于潜在可用性问题的意见。为了保证这些意见的质量,科研首要利用Zoom的自动转录功能将可用性测试视频中的口头内容转录成文本。而后,研究人员对这些转录文本进行校正,添加标点,并编辑时间戳以暗示自然语言的停顿。接着,ChatGPT按照这些转录文本生成可用性问题的意见。
图1 ChatGPT 响应的屏幕截图,其中包括四个可用性问题描述以及每一个问题的起始和结束时间
为了模拟AI助手的实时反馈,科研设计了三种区别的自动意见机会要求:在潜在问题之前、同步时和之后。这些意见经过一个用户界面展示给参与者,该界面包含一个视频播放器和一个聊天窗口。视频播放器准许参与者审查可用性测试视频,而聊天窗口则用于展示AI助手的自动意见和对参与者问题的响应。 图2 视频时间轴说明了三种时序要求:1) 意见出此刻问题之前,2) 意见与问题同步显现,3) 意见出此刻问题之后在分析过程中,参与者能够经过聊天窗口对AI助手的自动意见做出反应,包含暗示同意、需求澄清、提出纠正或暗示区别意。另外,参与者还能够提出与视频内容关联的问题,由真人演员(即wizard)装扮的AI助手会即时回复这些即兴问题。这种设计准许科研收集关于自动意见机会对参与者分析行径影响的数据,以及参与者对AI助手意见的接受程度和质量评定。
图3 UX分析工具的用户界面:(A) 视频播放器、(a1) 进度栏、(B) 聊天线程、(b1) 聊天框、(b2) 表示意见、(b3) 表示信息和 (b3)表示所有最后,科研过程中收集的数据包含参与者对自动意见的反应、她们自己识别的可用性问题、对AI助手意见的同意程度以及她们对AI能力的主观感知。经过定量和定性的分析办法,科研评定了区别机会的自动意见对UX评定者分析性能和主观感知的影响,以及AI助手在UX评定中的潜在价值和局限性。图4 表示科研程序的流程图PART03 实验结果分析
实验结果分析部分首要关注了自动意见机会对UX评定者分析性能的影响。经过对比三种区别机会要求——在潜在问题之前、同步时和之后——对参与者识别问题数量的统计,科研发掘机会要求并未明显影响参与者发掘问题的总数。这显示,尽管自动意见能够供给帮忙,但评定者的核心分析能力并未因AI的介入而受到明显改变。
其科研深入探讨了参与者对自动意见的主观感知。经过调查和访谈,科研者发掘大都数参与者更偏好在潜在问题出现后接收自动意见。这种偏好的背面原由是,评定者倾向于首要独立分析问题,而后再利用AI的意见做为验证。这种次序不仅加强了评定者对AI意见的信任,亦加强了她们的工作效率。
图5 参与者对每种要求的效率、信任和偏好的评分 进一步分析参与者对ChatGPT生成的自动意见的详细反应,科研揭示了参与者对建议的四种重点反应:同意、纠正、澄清请求和区别意。其中,大部分意见(77.6%)得到了参与者的同意,这一结果显示AI助手在辅助识别可用性问题方面拥有必定的效用。然而,亦有相当比例的意见未被接受,这一般是由于意见与评定者的观察结果不符或意见描述不足准确。
图6 参与者对每种状况的认知奋斗、满意度和帮忙性的评分科研分析了ChatGPT在识别可用性问题上的准确性。经过与UX专家的手动分析结果对比,ChatGPT的精确度(precision)为86%,召回率(recall)为71.1%。这一结果寓意着虽然ChatGPT能够识别出有些正确的问题,但亦错失了近一半的独特问题。这一发掘强调了人类专业知识在UX评定中的不可替代性,同期亦指出了当前AI工具在理解和分析繁杂用户交互方面的局限性。PART04 结论与讨论科研结果揭示了自动意见机会对UX评定者分析性能和主观感知的明显影响。参与者对ChatGPT生成的自动意见的反应多种多样。总体上,77.6%的意见被接受,这显示AI助手在必定程度上能够辅助UX评定者识别问题。然而,亦有部分意见未被接受,这可能是因为意见的描述不足准确或与参与者的分析结果不一致。另外,科研还发掘,尽管AI助手能够识别出有些可用性问题,但它错失了58.8%的由参与者集体识别的独特问题。这一结果明显了人类专业知识在UX评定中的不可替代性,尤其是在理解用户行径背面的繁杂性和上下文方面。AI助手日前还没法完全替代人类评定者的洞察力和经验,因此呢,将来的AI工具应该被视为人类评定者的辅助工具,而不是替代品。在讨论部分,科研者们提出了对将来AI辅助UX评定工具的设计和功能的意见。例如,能够思虑准许UX评定者按照个人爱好调节自动意见的机会,以优化她们的分析流程。另外,将来的AI工具能够利用多模态数据(如视频内容、用户的表情和语音)来加强对可用性问题的识别能力。科研者们还强调了在AI工具中知道其局限性和运用指南的重要性,以保证评定者能够有效地利用AI助手,同期保持对评定结果的独立判断。这项科研为理解AI助手在UX评定中的潜在功效供给了宝贵的见解,并为将来人机协作工具的发展供给了指点。经过优化AI助手的设计,能够使其作为UX评定者的辅助工具,从而加强评定的效率和质量。
注
本文是CHI中的一篇论文《Enhancing UX Evaluation Through Collaboration with Conversational AI Assistants: Effects of Proactive Dialogue and Timing》。
原文链接:https://dl.acm.org/doi/10.1145/3613904.3642168编者根据读书笔记的形式进行撰写,原论文知识产权归杂志社或原论文作者所有,如有侵权,请联系删除。
封面照片源自:https://i.pinimg.com/originals/dd/31/83/dd3183eebb116baf5e252a92a540d316.jpg(如有侵权,请联系删除)
i读
“i读”经过紧跟时事热点、分享国内外设计行业优秀论文、论文撰写经验与iDi项目介绍,让读者在平时的点滴累积中深入理解、把握设计科研办法,加强学术科研能力与论文写作水平
◆ ◆ ◆ ◆ ◆ 编辑:皓淳 俊瑶 编辑责任人:凡睿— 举荐阅读 —(点击蓝字就可阅读)湖南大学智能设计与交互体验实验室简介赵江洪 工业设计学科“教授的教授”
iDi实验室邹一鸣、付熙、叶丹澜、欧阳汭霖论文获UXPA2022文集最佳论文奖习惯性和成瘾性智能手机行径与那些原因关联呢?
倘若有收获,记得戳在看哦
|