来源:管理智慧
哈佛大学最新研究表明:在接下来的几年中,生成型人工智能有望深刻改变多种职业
如今,人工智能已经不仅仅属于技术专家,几乎任何人都能通过使用日常语言的指令而不是编程来运用AI。我们的研究显示,大部分商业功能以及超过40%的美国工作活动能够通过通用人工智能被增强、自动化或彻底改造。预计这些变革将对法律、银行、保险及资本市场等行业影响最大,随后是零售、旅游、健康和能源行业。
对组织及其员工来说,即将到来的这一转变将带来重大的影响。在未来,我们很多人会发现,我们的职业成功将取决于我们能否从像ChatGPT等这样的大型语言模型中获取最优质的输出,并能与这些模型一同学习与进步。为了在这个AI与人类合作的新时代中脱颖而出,大多数人需要掌握我们所称的“融合技能”之一或多个——智能询问、融合个人判断力和相互学习。
智能询问指的是以能显著改善思考和结果的方式指导大型语言模型(或者说,给它们下达指令)。简而言之,这是一种与AI共同思考的技能。例如,一名金融服务公司的客服人员可能在处理复杂的客户问题时运用此技能;制药科学家可能用它来探索药物化合物和分子作用;市场营销人员可能利用它分析数据集,以确定最佳零售价格。
融合个人判断力则是在通用AI模型对下一步行动不确定或在其推理中缺乏必要的商业或伦理背景时,加入人类的判断力。这一做法旨在使人机交互的结果更加值得信赖。判断整合需要洞察何时、何地以及如何介入,其有效性可以通过AI输出的可靠性、精确性和可解释性来评估。
相互学习是你可以通过将丰富的数据和组织知识整合到你对AI的指令中,帮助它理解你的业务需求,从而将其培养成为你的创造伙伴。这种技能可以将通用AI定制化到适应公司的具体业务环境,使其能够实现你期望的成果。在此过程中,你也将学会如何训练AI处理更高级的挑战。相互学徒制曾是数据科学家和分析专家构建模型时的专利,如今它在非技术岗位上也显得日益重要。
为何需要系统地培养这些关于思考、建立信任和个性化定制的新技能呢?实证研究一致表明,目前大多数员工对大型语言模型的临时指令通常会导致不稳定或不理想的结果,特别是在处理复杂的推理任务时。这一点在从客服到市场营销、物流、研发等各个功能领域均是如此。因此,我们所有人在工作中使用通用AI时都需要增加更多的严谨性。本文将阐释如何实现这一目标。
01
智能询问
如何提升大型语言模型(LLM)这类基于海量数据和概率驱动(而非人类逻辑)的复杂系统的输出?这里有几种方法可供使用。
1、逐步推理。
在指导通用AI时,你需要将过程拆分为若干个步骤,并致力于优化每个环节,这类似于工业制造初期科学管理的方法。但AI处理的不是装配线,而是一连串的思考过程,目的是寻找解决方案。研究显示,当通用AI被引导以这种方式拆解推理任务时,其性能会显著提高,这在处理复杂问题时尤其有效,OpenAI的研究员Jason Wei在首次探索“思维链条推理”时就已证明了这一点。
事实上,向LLM的指令中加入“让我们逐步思考”这样的简单短语,可以在从数学到策略推理的多种任务中将其输出的准确度提高三倍以上。比如,你的AI提示可能是:“我的部门有50万美元预算,已经用20%购买设备,30%用于招聘新员工。我们刚获得了5万美元的预算增加。我们的剩余预算是多少?让我们逐步思考。”模型将输出:“起初,你部门有50万美元。你花了20%,即10万美元购买设备,剩余40万美元。你又分配了30%,即15万美元用于新招聘,预算降至25万美元。最后,你收到了5万美元的预算增加,剩余预算为30万美元。”尽管大多数人可以在头脑中做出这种计算,但LLM(其运算速度更快)能被训练去详细解释在更复杂的量化问题上的计算过程,如计算销售代表在多个城市间行驶的最短路线。这种方法产生了一个可追踪的推理链,不是在一个黑箱过程结束时突然给出答案,而是让你能够验证结果的准确性。
2、分阶段训练大型语言模型应对复杂任务。
在需要特定职业和领域知识的领域,如法律、医疗、科研或库存管理中,可以逐步引入AI以达到更优效果。
举例来说,麻省理工学院的研究者Tyler D. Ross和Ashwin Gopinath特近期探讨了开发一种“AI科学家”的可能性,该科学家能整合多种实验数据并提出可检验的假设。他们发现,当这一复杂任务被细分为若干子任务时,ChatGPT 3.5-Turbo能通过微调学习DNA的结构生物物理。在库存管理这类非科学领域,子任务可能包括需求预测、库存数据收集、订货预测、订货量评估和性能评估。对于每个子任务,管理者会利用自身的专业知识和信息来训练、测试和验证模型。
3、与大型语言模型进行创新型探索。
从战略制定到新产品开发的许多工作流程都是开放式和迭代的。为了充分利用这些活动中的人工智能互动,你需要引导机器设想多种潜在解决方案的路径,并以更加灵活和多元的方式作出响应。
这种智能询问可以提高大型语言模型在预测复杂财经和政治事件方面的精准度,正如Philip Schoenegger, Philip Tetlock及其团队最近的研究所示。他们将人类预测者与被训练为“超级预测者”的GPT-4助手配对,这些助手能够为不同结果分配概率和不确定性区间,并就每个结果提供正反两面的论证。研究发现,这些助手的预测结果(涵盖从某一特定日期的道琼斯运输平均指数收盘价到2023年12月通过地中海进入欧洲的移民数量)比未经特定训练的大型语言模型的预测结果准确度提高了43%。
02
融合个人判断力
在AI生成过程中引入专家级别及道德层面的人类判断对于确保输出的可信度、准确性和可解释性,以及对社会产生正面影响极为关键。这里有一些你可以采用的方法:
1、整合检索增强生成(RAG)。
大型语言模型(LLMs)不只有可能产生虚构信息,它们训练所用的数据和信息往往也是多年前的。在运用LLMs时,用户经常需要就输出中的可靠、相关及最新信息的必要性做出判断。如果这类信息是关键的,你可以利用检索增强生成(RAG)技术,从权威的知识库中添加信息到商用LLM的训练资源中。这样可以有效防止误信息、过时的回应和不精确的数据。例如,制药研究者可能会利用RAG技术接入人类基因组数据库、最新的科学期刊、覆盖临床前研究的数据库以及FDA的指导方针。要部署RAG,通常需要IT团队的协助,他们能告诉你是否已经或能够将其融合进他们的工作流中,从而为他们的工作增添一层额外的质量保证。
2、保护公司及个人隐私。
如果你在AI提示中使用机密数据或专有信息,只应使用经公司批准且部署在公司防火墙内的模型,切勿使用开源或公共的大型语言模型。在公司政策允许的前提下,如果大型语言模型的应用程序接口的服务条款明确信息不会被用于模型训练,那么你可以使用私人信息。
同时,注意到在制定提示时可能引入的偏见。例如,如果一位财务分析师请求LLM解释昨天的季报如何显示公司已为未来五年的增长做好准备,这种询问就表现出了近期偏见——在预测未来事件时过于依赖最近的信息。LLM供应商正在寻找解决这类问题的方法。例如,微软和谷歌正在增加功能,帮助用户检测可能有害的提示和响应。Salesforce已经开发了一种AI架构,能够在构建提示时隐藏任何敏感的客户数据,防止这些数据被传输至第三方LLM,同时对输出进行风险评估,如毒性、偏见和隐私问题,并收集反馈以改进提示模板。尽管如此,最终,最关键的还是你——系统中的人类用户——的判断。
3、仔细检查可疑输出。
根据现有研究,即使在进行大量数据处理和其他干预措施后,错误和幻觉仍然难以完全避免。加州大学伯克利分校的研究员Jinwoo Ahn 和 Kyuseung Shin指出,当大型语言模型的用户遇到看似错误的输出时,他们往往会本能地多次尝试重启模型,这反而可能逐渐降低回答的质量。研究者建议,应该确定AI出错的具体步骤,然后使用另一个LLM单独执行这一步骤,先将问题分解成更小的部分,再使用结果来调整第一个LLM。例如,一位科学家可能使用OpenAI的ChatGPT来帮助开发一种新的聚合物,并进行一系列的步骤计算。如果她在过程中的某个环节发现了错误,她可以让Anthropic的Claude将问题分解成更小的子问题并进行解释。之后,她可以将这些信息反馈给ChatGPT,请求它精炼其回答。这种方法本质上是将链式思维的原则应用于修正你认为错误的输出。
03
相互学习:把AI培养成你的助手
随着大型语言模型(LLM)的规模和复杂度增加,它们能够展示出“突现属性”——这些是未经特别训练却在提供了相关背景数据或知识后显现的强大新能力,例如高级推理。为了推动它们的发展,你可以执行以下几个步骤。
1、提供“思维示范”。
在向LLM提出问题让其解决之前,你可以先引导它按照特定的方式进行思考。比如,你可以教授它“从简到难”的推理方法,向AI展示如何把一个复杂的挑战分解为几个更小、更简单的挑战,先解决最简单的问题,然后用这个解答作为解决下一个更复杂问题的基础,依此类推。谷歌DeepMind的Denny Zhou和他的团队证明了,这种“从简到难”的方法能将AI输出的准确率从16%提升到99%。
比如说:想象一位负责健身服品牌的营销经理,他需要策划一个新产品系列。他可以按照以下步骤指导LLM来分析问题:
受众定位:识别潜在的客户群体——健身爱好者。这对一个在公司客户数据上进行过训练的模型来说相对简单。
信息设计:创建强调产品性能、舒适性和风格的营销信息。这是一个更具挑战性和需要创造性的任务,需要在已识别的受众基础上进行。
选择渠道:选取社交媒体、健身相关博客和与影响者的合作,这些渠道将有助于将营销信息有效传达给目标受众。
资源分配:根据所选择的渠道进行预算分配,这通常是组织中最容易引发争议的问题之一。
通过这种方式,营销经理可以系统地利用大型语言模型来优化营销策略的各个方面,确保新产品线的成功推广。
2、通过上下文学习训练你的LLMs。
你可以通过向AI展示一系列上下文示例来教它如何完成任务,这种方法允许你调整预训练的大型语言模型如GPT-4、Claude和Llama,而无需复杂的参数调整。例如,研究者们通过向LLMs展示放射学报告、患者提问、治疗进展记录和医患对话的示例,教会了它们如何总结医疗信息。研究发现,81%的LLM生成的总结质量达到或超过了人工总结。
你还可以通过提供相关背景信息并持续提问直至解决问题的方式来训练LLM。例如,两家软件公司均希望提高销售量。第一家公司的销售团队长期难以准确预测软件许可需求,因此领导先是提供历史销售数据,询问下一季度的预期需求,再提供关于客户软件功能升级和年度预算的信息,探讨季节性影响,最后,他输入了CRM系统和市场报告的详细数据,探讨市场活动对销售的影响。
第二家公司的销售团队则关注于改善客户选择,领导可能会提供具体的财务数据,指导LLM按照收入贡献对客户进行排序,然后逐步深入到地理范围、客户群、技术能力等问题。在这一过程中,两位高管都在通过具体的公司销售策略上下文训练LLM,并提高其完成任务的能力。他们将公司和行业的知识整合到交互中。随着LLM在具体销售流程上积累更多经验,其生成的答案也越来越精准。
相互学习是一个过程,用户从提出简单的问题或指令开始,逐步增加任务描述的复杂性和细节。在这一过程中,他们可以增添背景信息,调整用词,并观察模型如何反应,不断试验直至实现预期效果。
04
最重要的是:学习和掌握AI技能
要广泛掌握通用AI技能,不仅需要企业进行大量投资,也需要个人的主动学习和努力。虽然已有少数公司提供相关培训,但大多数公司尚未建立完善的培训体系。事实上,在我们2024年对7000名专业人士的调查中,虽然94%的人表示愿意学习新的技能以应对通用AI的挑战,但仅有5%的人表示他们的雇主在大规模地积极培训员工。因此,很多人将需要自主行动,跟上LLMs的快速进展以及各类工作和行业中逐步应用的高端研究。你可以注册各类平台提供的在线课程;尝试我们讨论过的提示技巧以及新兴的提示方式;并推动你的雇主提供更多使用LLMs的机会,同时辅以最佳实践的培训。
接下来要掌握的是链式思维提示技能,应用于代理工作流和多模态大型语言模型(MLLMs)。这些模型能够整合不同类型的数据,如文本、音频、视频和图像,并能在这些格式中提供输出。一项研究表明,链式思维提示可以将MLLMs的性能提高至100%。早期采用者已经在测试这些方法,但它们尚未成熟,还不足以广泛推广。
人工智能革命并非即将到来,而是已经来临。领先的企业已经在利用这项技术重新定义各行业、各职能和各种工作的流程。通用人工智能大幅提高了标准,要求我们与AI共同思考,确保信任其结果,并不断调整它和我们自身,以实现更优表现。尽管通用AI是推动人机共生关系的一部分,但它在技术发展史上也独具一格。历史上没有其他重大创新以如此迅速的速度起飞。知识型工作的变革将比我们大多数人预想的更快、更强大。准备好吧。
未来的商业将不仅由通用AI驱动,更重要的是由那些能够最有效运用它的人引领。
原文链接:https://hbr.org/2024/09/embracing-gen-ai-at-work