(原文:https://www.nngroup.com/articles/chatgpt-productivity/ ,翻译由ChatGPT提供。)
ChatGPT和类似的生成式人工智能工具的最近推出引起了很多争议。评论家抱怨说,人们可以欺骗AI说出恶毒的话,而且输出结果常常是误导性的。
至于第一个问题,我想说:那又怎样。你可以使用错误的公式来欺骗Excel进行错误的计算。如果你想让一个文字处理器产生恶毒的文本,你只需要打入它。一个专业工具的衡量标准不是当你故意滥用它时它会做错什么,而是当工具被正确使用时结果是否好。
更糟糕的是,当ChatGPT被正确使用时,它会生成听起来非常有说服力但包含完全虚构的文本。希望未来的版本会更准确,但是我认为即使输出结果有误也不一定会使AI工具注定失败,只要它被正确使用。当然,如果你依赖ChatGPT而不检查它的输出,那么虚假信息会伤害你。但是如果一个人检查AI生成的文本,然后进行编辑和修正,那么结果是否值得人类的努力呢?
幸运的是,一项新的研究提供了对这个问题的深入洞察。
Research Study
麻省理工学院的Shakked Noy和Whitney Zhang最近发表了一项实证研究的结果,研究对象是使用ChatGPT撰写各种商业文件的业务专业人士。
研究对象是444名有经验的业务专业人士,涵盖了多个领域,包括市场营销人员、拨款撰写人员、数据分析师和人力资源专业人员。每个参与者被分配撰写两份与其领域相关的商业文件,例如新闻稿、简短报告和分析计划等。这些文件被认为是这些专业人士在工作中从事的写作类型。
所有参与者首先以正常方式撰写了一份文件,没有使用计算机辅助工具。随机分配了一半的参与者在撰写第二份文件时使用ChatGPT,而另一半则以正常方式撰写第二份文件,没有使用人工智能辅助。
在考虑下面报告的结果时,我们应该注意到,ChatGPT条件下的大多数参与者第一次使用这个人工智能工具(30%的参与者以前使用过ChatGPT)。通常情况下,任何工具都有一个“学习曲线”:用户使用工具的次数越多,他们使用工具的效率就越高。当一个工具具有足够的“可学性”,用户可以在第一次尝试时成功使用它,这是非常好的。但对于专业用途来说,用户随时间达到的生产力水平通常更为重要。无论如何,本研究表明,ChatGPT对于首次使用者(占AI组大多数)具有极好的可用性;对于更有经验的用户,结果可能会更好。
商业文件撰写完成后,它们被评分为1-7分的质量等级。每份文件由三位独立的评估人员进行评分,这些评估人员是与作者同一领域的业务专业人士。当然,评估人员不知道哪些文件是使用AI辅助撰写的。
顺便说一句,我想指出的是,评估使用的工具所产生的工作质量在UX研究中很少被评估。毕竟,输出是计算机使用的目标,输出质量是评估用户界面的重要因素之一。正如本研究所示,衡量质量的一种常见方法是让独立的评估人员对工作进行评分。
Results: Faster Work, Better Results
在工作速度和获得良好结果之间通常存在冲突(这在认知心理学中被称为“速度-准确性权衡”现象)。然而,在这项研究中,使用ChatGPT的业务专业人士在生产交付成果方面更快,而这些成果的质量评分也更高。
第一轮,即未使用AI辅助工具生产文档的轮次,两组的结果相同,证实了参与者被分配到研究条件的确是随机的。换句话说,一个组的参与者并不比另一个组的参与者更有才华或技能。因此,我们可以确信,测量第二轮写作的差异确实是由于使用ChatGPT引起的。
在第二轮中,使用ChatGPT的业务专业人士平均用时17分钟完成了他们的成果,而没有AI支持的专业人士则花费了27分钟。因此,没有AI支持,专业人士在正常的8小时(480分钟)工作日内将产生480/27 = 17.7份文件,而有了AI支持,这个数字将增加到480/17= 28.3。这是一个59%的生产力提高=(28.3-17.7)/17.7。换句话说,使用ChatGPT的用户在工作日内可以比不使用ChatGPT的人写更多的文件,至少如果他们所有的写作都与本研究中的文件类似。这种差异对应于0.83个标准差的效应大小,对于研究结果来说被认为是很大的。
如果输出质量低下,那么产生更多的输出是没有帮助的。然而,根据独立评分人员的评估,情况并非如此。(请记住,评估人员不知道哪些作者得到了ChatGPT的帮助。)文件的平均评分质量在1-7分的评分尺度上,当作者得到ChatGPT的帮助时,要好得多:4.5(使用AI)比3.8(不使用AI)要高。质量的效应大小为0.45个标准差,处于研究结果的小效应和中等效应之间。(我们无法计算百分比增长,因为1-7评分尺度是一个区间度量而不是比率度量。但在7分尺度上,0.7的提升肯定是好的。)
因此,最大的效果是提高了生产力,但也有一个很好的效果是提高了质量。这两个差异在统计学上都非常显著(两个指标的p=0.000)。请记住,即使大多数参与者没有使用过ChatCPT,这些改进也被记录了下来。随着用户发现更好的使用工具的方法并相应地调整他们的工作风格,长期的改进可能会更大。(有一种被称为任务-工件循环的东西,新工具带来的最大好处来自于将工作方式调整到工具提供的新功能。这与不改变现有业务流程而自动化的做法形成对比,后者通常是次优的。)
Why Better Performance with ChatGPT
以上是定量结果。通常在UX中,考虑“Why”比考虑“What”更有趣。为什么使用ChatGPT的业务专业人士在编写文档时表现更好?目前的研究并没有完全满足回答这个问题,可能是因为科学家不是UX专业人员,而是对生产力研究感兴趣的经济学家。然而,他们的研究揭示了一些有趣的见解。
首先,使用ChatGPT似乎减少了技能差异。在未使用AI的对照组中,参与者的两个任务得分之间的相关性相当高,为0.49(意味着在第一个任务上表现良好的人往往也在第二个任务上表现良好,而在第一个任务上表现不佳的人也在第二个任务上表现不佳),而在AI辅助组中,两个任务表现之间的相关性显著降低,仅为0.25。这种较低的相关性主要是因为在第一个任务中得分较低的用户受到了比在第一个任务中表现良好的用户更多的ChatGPT帮助。
其次,要求专业人士报告他们在写作过程的三个不同阶段中如何分配时间:brainstorming,writing a rough draft,和polishing this draft。他们的回答表明,使用ChatGPT改变了用户的时间分配方式。
在第一轮(未使用AI辅助工具)中,业务专业人士约花费25%的时间进行brainstorming,50%的时间writing a rough draft,25%的时间editing this draft to produce the final, polished deliverable。当使用ChatGPT时,参与者可能花费了更少的时间进行brainstorming(尽管差异在误差范围内,因此不能依赖)。生成rough drafts的时间减少了一半以上,因为大部分工作量转移到了ChatGPT上。有趣的是,润色草稿的时间翻了一番。
一个步骤减半,一个步骤翻倍:你可能认为我们是一样的。不是的:由于rough-draft时间最初是editing时间的两倍,因此两倍的差异导致rough drafting的绝对数字比editing更多。这解释了使用ChatGPT时任务时间的总体减少:在起草文本方面节省了更多的时间,而在额外的editing方面则花费了更多的时间。相反,额外的editing时间可能有助于AI辅助文档的更高评分质量。
因此,提高生产力和质量的改进可能是由于业务专业人
因此,提高生产力和质量的改进可能是由于业务专业人士的时间分配方式的改变:花费更少的时间来产生初始草稿文本,而花费更多的时间来润色最终结果。如果这种分析在更详细的定性研究中得到证实,那么ChatGPT的主要贡献是节省用户在生成草稿文本方面的大量时间。

Barchart showing the average time in minutes spent on the three stages of writing a document: [1] deciding what to do (called “brainstorming” by the researchers), [2] generating the raw text for the first draft, and [3] editing this draft to produce the final polished deliverable. The top bar shows the average times spent by users who employed ChatGPT, whereas the bottom bar shows the average times for users who wrote their document the normal way, without AI assistance. The difference between the two “brainstorming” time estimates is not statistically significant.This chart is based on recalculated data from Noy and Zhang (2023).
Limitations
Noy和Zhang应该受到赞扬,因为他们提供了关于真实业务专业人员使用ChatGPT完成实际业务任务的实证数据。这相比于自ChatCPT在2022年11月推出以来混杂着大量怨言和个人意见的社交媒体,是一个巨大的进步。尽管如此,目前的研究仍存在一些弱点——但这对所有研究都是真实的,因为如果我们等待完美的研究,什么也不会完成。
作者研究了一系列中级业务专业人员,他们产生了现实的但相当短的文件(请记住,没有AI支持的文档编写时间为27分钟)。研究各种职业非常有意义,这大大增加了发现的普适性,相比于将研究限制在单一类型的用户中。但是,为了充分了解AI对业务专业人员的影响,我们需要来自更广泛的工作范围的数据,包括跨领域和跨级别的高级专业人员,如高管、高级工程师、医生等。我们还需要更大范围的任务,需要几个小时或几天才能完成。(显然,由于预算原因,早期研究不能使用需要在实验室花费多天时间的研究参与者。但在其他领域已经进行了这样的研究,这也需要在这里进行。)
正如已经提到的,目前的研究缺乏关于用户行为细节以及他们为什么这样做的定性洞察力。此外,用户在文档生成的不同阶段分配时间的估计基于自我报告的数字。我们知道,自我报告数据在UX研究中是薄弱的,因此在未来的研究中更谨慎地估计这些数字是更好的选择。
Conclusion
目前的生成AI版本(如ChatGPT)有时会产生有偏见或错误的输出,这是众所周知的。但是,AI和熟练的人类之间的协同作用可以超越两者。在讨论AI以及考虑是否以及如何引入AI工具到业务中时,我们应该强烈考虑让AI和人类业务专业人员一起工作的方式。这不是AI取代熟练的人类的问题,因为AI可以作为增强人类智力的工具,沿着Doug Engelbart最初设想的先进用户界面的方向。
Reference
Shakked Noy and Whitney Zhang (2023): Experimental Evidence on the Productivity Effects of Generative Artificial Intelligence, MIT Economics Department working paper. Retrieved March 13, 2023 from https://economics.mit.edu/sites/default/files/inline-files/Noy_Zhang_1_0.pdf