人工智能正面临着几个关键的挑战。它不仅需要海量的数据来提供准确的结果,还需要能够确保数据不存在偏见,并且需要遵守越来越严格的数据隐私法规。在过去的几年里,我们已经看到了一些解决方案的提出,以应对这些挑战–包括各种旨在识别和减少偏见的工具、匿名化用户数据的工具,以及确保只有在用户同意的情况下才能收集数据的方案。但这些解决方案都面临着自身的挑战。

现在我们看到一个有望成为救世主的新行业出现了:合成数据。合成数据是人工计算机生成的数据,可以代替从现实世界获得的数据。

合成数据集必须与它所替代的真实世界数据集具有相同的数学和统计属性,但不明确代表真实的个人。将其视为真实世界数据的数字镜像,它在统计上反映了这个世界。这样就可以在一个完全虚拟的领域中训练人工智能系统。而且它可以随时为各种用例进行定制,从医疗保健到零售、金融、交通和农业。根据StartUs Insights去年6月的研究,已经有50多家厂商开发了合成数据解决方案。我将在稍后概述一些领先的玩家。不过,首先,让我们仔细看看他们有望解决的问题。

真实数据的麻烦

在过去几年中,人们越来越关注数据集中固有的偏见如何在不知不觉中导致AI算法延续系统性歧视。事实上,Gartner预测,到2022年,由于数据、算法或负责管理它们的团队存在偏见,85%的AI项目将提供错误的结果。 AI算法的激增也导致人们对数据隐私的关注度越来越高。反过来,这也导致了欧盟的GDPR以及美国的司法管辖区(包括加州和最近的弗吉尼亚州)制定了更强有力的消费者数据隐私和保护法律。 这些法律赋予消费者对其个人数据的更多控制权。例如,弗吉尼亚州的法律赋予消费者访问、更正、删除和获取个人数据副本的权利,以及选择不出售个人数据的权利,并拒绝算法访问个人数据,以用于定向广告或对消费者进行剖析。

通过限制对这些信息的访问,获得了一定的个人保护,但代价是算法的有效性。人工智能算法能够训练的数据越多,结果就越准确、越有效。如果不能获得充足的数据,人工智能的优势,比如协助医疗诊断和药物研究,也会受到限制。 一个经常用来抵消隐私问题的替代方案是匿名化。例如,个人数据可以通过掩盖或消除识别特征来进行匿名化,例如从电子商务交易中删除姓名和信用卡号码,或从医疗保健记录中删除识别内容。但越来越多的证据表明,即使数据已经从一个来源匿名化,它也可以与安全漏洞暴露的消费者数据集相关联。

事实上,通过结合来自多个来源的数据,即使在一定程度上进行了匿名化,也有可能对我们的身份形成令人惊讶的清晰图像。在某些情况下,甚至可以通过关联来自公共来源的数据来实现这一点,而不需要邪恶的安全黑客。

合成数据的解决方案

合成数据有望提供AI的优势而不会带来不利影响。不仅将我们的真实个人数据排除在外,综合数据的总体目标是通过纠正经常在现实世界中产生的偏见来使性能优于真实世界的数据。 虽然对于使用个人数据的应用来说是理想的,但合成信息也有其他的用例。一个例子是复杂的计算机视觉建模,其中许多因素实时互动。利用先进的游戏引擎的合成视频数据集可以创建超真实的图像,以描绘自动驾驶场景中所有可能的偶发事件,而试图拍摄现实世界的照片或视频来捕捉所有这些事件是不切实际的,也许是不可能的,而且很可能是危险的。这些合成数据集可以极大地加快和改善自动驾驶系统的训练。

(上图:合成图像用于训练自动驾驶汽车算法。来源:合成数据提供商Parallel Domain。)

具有讽刺意味的是,用于构建合成数据的主要工具之一与用于创建Deepfake视频的工具相同。两者都利用了生成对抗网络(GAN),即一对神经网络。一个网络生成综合数据,第二个网络尝试检测其是否真实。这是一个循环操作,通过生成器网络可以改善数据质量,直到区分器无法分辨实数和合成数之间的差异为止。

新兴的生态系统

Forrester Research最近确定了几项关键技术,包括合成数据,这些技术将构成他们认为的“ AI 2.0”,这些进步从根本上扩展了AI的可能性。通过更完全地匿名化数据并纠正固有偏差,以及创建原本难以获得的数据,合成数据将成为许多大数据应用程序的节约之选。

合成数据还具有其他一些其他好处:您可以快速创建数据集,并且经常使用标记为监督学习的数据。而且,它不需要像真实数据那样进行清理和维护。因此,至少从理论上讲,它可以节省大量时间和成本。

生成综合数据的公司中有几家信誉卓著的公司。IBM将其描述为数据制造,创建综合测试数据以消除机密信息泄漏的风险并解决GDPR和法规问题。AWS开发了内部合成数据工具来生成数据集,以培训Alexa使用新语言。微软还与哈佛大学合作开发了一种工具,该工具具有综合数据功能,可以增强研究部门之间的协作。尽管有这些示例,但综合数据仍处于起步阶段,新兴市场正在引领着新兴企业。

总结一下,让我们看一下这个新兴行业中的一些早期领导者。该列表是根据我自己的研究和行业研究组织(包括G2和StartUs Insights)构建的。

  1. AiFi-使用综合生成的数据来模拟零售商店和购物者的行为。
  2. AI.Reverie —生成合成数据来训练计算机视觉算法,以进行活动识别,对象检测和分段。工作内容包括智慧城市,稀有飞机识别和农业等广域场景,以及智慧商店零售。
  3. AnyVerse-模拟场景以使用原始传感器数据,图像处理功能和用于汽车行业的自定义LiDAR设置来创建合成数据集。
  4. Cvedia —创建合成图像,以简化大量标签,真实和可视数据的来源。该仿真平台采用多个传感器来合成逼真的环境,从而创建经验数据集。
  5. DataGen —室内环境用例,例如智能商店,家用机器人和增强现实。
  6. Diveplane —使用与原始数据相同的统计属性,为医疗保健行业创建合成的“双胞胎”数据集。
  7. Gretel —为了与GitHub等效,该公司为开发人员生成综合数据集,这些数据集保留与原始数据源相同的见解。
  8. Hazy-生成数据集以增强欺诈和洗钱检测能力,以打击金融犯罪。
  9. MostlyAI-专注于保险和金融领域,是最早创建综合结构化数据的公司之一。
  10. OneView –开发虚拟合成数据集,以通过机器学习算法分析地球观测图像。