人工智能

聊天机器人开发的数据平台
作者 亚历克斯·伍迪 2022年08月29日 14:59

目前最引人注目的人工智能用例之一是开发聊天机器人和会话代理。虽然等式中的 AI 部分运作良好,但组织训练数据以构建和训练准确的聊天机器人已成为更广泛采用的瓶颈。这就是驱使 Dashbot 的人们开发专门用于聊天机器人创建和优化的数据平台的原因。

自然语言处理 (NLP) 和迁移学习的最新进展有助于降低构建聊天机器人和会话代理的技术门槛。用户无需从头开始创建整个 NLP 系统,而是可以借用预先训练的深度学习模型并自定义几层。当你将 NLP 技术的这种民主化与 COVID 对工作场所的破坏结合起来时,我们就会发现聊天机器人几乎在一夜之间就如雨后春笋般涌现。

几年前,Andrew Hong 在一家风险投资公司工作时也看到了聊天机器人创建和使用的突然激增。随着聊天机器人市场以 24% 的复合年增长率增长(根据一项预测),对于技术投资者来说,这可能是一个有利可图的地方,而 Hong 希望加入其中。

“我一直在寻求投资这个领域。每个人都在投资聊天机器人,”Hong 最近告诉Datanami。“但后来我突然想到这里实际上存在数据问题。就在那时,我深入挖掘并看到了这个问题。”

问题(正如您可能已经猜到的)是对话数据是一团糟。Hong 表示,组织正在投入大量的数据科学和数据工程资源来准备大量原始聊天记录和其他会话数据,以便用于训练聊天机器人和代理。

问题归结为:如果没有大量手动工作来准备、组织和分析用于培训的大量文本数据,聊天机器人和代理就不能很好地工作。保持机器人高效运行还需要持续优化,Hong 的公司 Dashbot 帮助实现了自动化。

“无法辨认的象形文字”

计算机可以理解 0 和 1。人类对话?没那么多。

“其中很多实际上是象形文字,”洪谈到用于训练聊天机器人的通话记录、电子邮件和其他文本时说。“原始对话数据是无法解读的。它就像一个包含数十亿行单词的巨大文件。你真的连问题都问不出来。”

虽然一个好的聊天机器人似乎可以毫不费力地工作,但在幕后还有很多工作要做。首先,必须对用作训练数据的原始文本文件进行清理、准备和标记。句子必须串在一起,对话中的问题和答案必须分组。作为此过程的一部分,数据通常从数据湖中提取并加载到可以查询和分析的存储库中,例如关系数据库。

(杰森·温特/Shutterstock)

接下来,涉及数据科学工作。在第一次通过时,机器学习算法可能有助于识别文本文件中的集群。随后可能会进行主题建模,以缩小人们正在讨论的主题。可以执行情绪分析以帮助识别与用户的最大挫败感相关联的主题。

最后,训练数据按意图进行分割。一旦意图与特定的训练数据相关联,NLP 系统就可以使用它来训练聊天机器人回答特定问题。可以对聊天机器人进行编程,以识别和响应 100 个或更多个人意图,并且它在每一个意图上的表现都因训练数据的质量而异。

Dashbot 成立于 2016 年,旨在尽可能多地自动化这些步骤,并帮助在将训练数据交给 NLP 聊天机器人供应商(如Amazon Lex、IBM Watson和Google Cloud Dialogflow )之前尽可能地进行数据准备。

“我认为像这样的工具需要存在于聊天机器人之外,”洪说,他于 2020 年加入 Dashbot 担任首席执行官。“你如何将非结构化数据转化为可用的东西?我认为我们建立的这个 ETL 管道将有助于做到这一点。”

聊天机器人数据准备

Hong 没有要求数据工程师和数据科学家花费数天时间处理大量文本文件,而是开发了 Dashbot 的产品,称为对话数据云,以自动化将原始文本转换为主要 NLP 供应商的精炼 JSON 文档所需的许多步骤预计。

“很多企业的呼叫中心记录都堆积在他们的亚马逊数据湖中。我们可以利用它,在几秒钟内改变它,”洪说。“我们可以与任何对话渠道整合。它可以是您的呼叫中心、聊天机器人、语音代理。您甚至可以上传位于数据湖上的原始对话文件。”

Dashbot 产品分为三个部分,包括用于 ETL 和数据清理的数据游乐场;报告模块,用户可以在其中对数据进行分析;和优化层。

Hong 说,数据准备发生在数据操场上,而分析层对于提出有助于阐明问题的数据问题很有用,例如:“在过去 7 天里,有多少人打电话来询问这个新的我们刚刚推出的产品线,有多少人对此感到沮丧?”

Dashbot 帮助对话设计师优化聊天机器人的训练数据(图片由 Dashbot 提供)

优化层可以帮助用户识别聊天机器人被错误训练的实例。要训练聊天机器人,NLP 系统必须具有与给定意图相关联的正确训练短语。Dashbot 具有一个混淆矩阵,可以识别注册意图和基础训练数据之间何时存在不匹配。

“建立这些意图和训练短语是最难的部分,”洪说。“这是很多企业苦苦挣扎的地方。你必须默认雇佣大量数据科学家来解决这个问题。”

例如,对于输入短语“嘿,我想在本周六预约驾照考试”,聊天机器人可能会回答“好的,你想取消预约,”洪说。“那个训练短语的意图是错误的,你的机器人反应不正确。所以你需要开始消除歧义。”

除了识别意图和训练短语之间的不匹配之外,Dashbot 产品还可以显示需要新意图的对话设计器区域,每个区域都有其必要(和适当)的训练短语。

“我们是一种跨生态系统的集成层,”洪说。“其中一些机器人供应商也是这些 NLP 模型供应商。他们基本上只是收集这些意图和训练短语。他们有这个库是你的模型。它们实际上并不能帮助您优化模型。这取决于您和数据科学家以及管理团队来帮助自己改进它。因此,我们正在使用工具来帮助优化它并将其提供给这些提供商。”

据其网站称,这家旧金山公司已经筹集了 820 万美元的风险投资,并吸引了 Geico、Intuit 和谷歌等客户。


打开APP阅读全文

聊天机器人开发的数据平台

除了识别意图和训练短语之间的不匹配之外,Dashbot 产品还可以显示需要新意图的对话设计器区域,每个区域都有其必要(和适当)的训练短语。

长按识别二维码 进入IT168查看全文

请长按保存图片
{{data.thematic.text}}

相关文章

加载中...

分享到

请使用浏览器的分享功能
分享到微信等