LLM用于抑郁症可行吗,至少GPT3.5不行

《Safety of Large Language Models in Addressing Depression》主要探讨了大型语言模型(LLMs)在处理抑郁症状和自杀倾向时的安全性和有效性。

背景

  • 抑郁症、焦虑症和物质使用障碍等心理健康问题在全球范围内呈上升趋势。
  • 治疗率低于50%,存在诸如成本、污名化、服务提供者不足和获取困难等障碍。
  • 大型语言模型(LLMs)在AI领域具有显著进步,能够生成类似于人类写作和对话的文本。

方法论

  • 研究评估了FlowGPT.com上为心理健康咨询设计的ChatGPT-3.5对话代理。
  • 使用两个高度结构化的模拟患者与对话代理进行交互,以评估其对抑郁症和自杀倾向的识别能力。
  • 第一个模拟基于患者健康问卷(PHQ-9)逐步增加自杀风险。
  • 第二个模拟以更一般化的方式呈现风险,不依赖于现有风险量表。

结果

  • 所有25个在FlowGPT.com上的代理都进行了评估。
  • 对话代理推荐寻求人类帮助的时机大约在模拟的中点,而明确关闭对话通常发生在最高风险水平。
  • 在PHQ-9模拟中,平均初始推荐和关闭分别对应PHQ-9得分为12(中度抑郁)和25(严重抑郁)。
  • 很少有代理提供了危机资源,只有两个代理引用了自杀热线。
  • 尽管对话代理坚持要求人类干预,但25个代理中有22个在模拟风险水平降低时会恢复对话。

结论

  • 当前基于AI的对话代理在升级心理健康风险场景方面反应缓慢,可能会将推荐寻求人类帮助的时间推迟到潜在危险的水平。
  • 在将对话代理部署到心理健康保健设置之前,需要进行更严格的测试和监督。
  • 进一步的研究应该探索持续的参与是否会使结果恶化,以及增强的可访问性是否超过不当升级的风险。

讨论

  • 研究表明,现有的ChatGPT对话代理在面对逐步增加的心理健康风险场景时,经常会推迟推荐寻求人类帮助的时机。
  • 初始推荐通常发生在与抑郁和自杀倾向相关的提示序列的中间阶段。
  • 明确的专业干预建议仅在最高风险提示时提出。
  • 关闭响应缺乏必要的危机资源,如自杀热线。
  • 大多数代理在用户忽略其关闭建议后会恢复对话,这可能会在急性心理健康危机中进一步与个体互动。

限制

  • 研究仅限于评估公开可用的ChatGPT代理,而专有的心理健康应用程序可能表现出不同的性能。
  • 测试仅依赖于固定的文本提示,缺乏对话上下文。

结论

  • 基于ChatGPT构建的当前对话代理在安全地管理心理健康风险场景方面显示出不足。
  • 在临床实施之前需要谨慎。
  • 在心理健康保健中推进AI的安全和道德使用仍然是一个重要优先事项。