当前位置: 主页 > 新闻 >
人工智能民主化有多难?警惕人工智能系统成为偏见的牺牲品!
2020-07-09

领先的科技公司都在谈论人工智能的民主化,这很容易理解。因为获得构建人工智能系统所需的知识、工具和数据原材料的人越多,必然出现越多的创新。例如,抗击新型冠状病毒有关的数据集、模型和研究都是开源的,这使得大型的全球社区能够协作,这就是一种民主化。

但随着人工智能企业走向民主化,一个警示正在出现——即使是由高素质工程师设计的最先进的人工智能系统,也可能成为偏见的牺牲品,而且很难解释个中原因。如果一个人工智能系统是由没有经过适当训练的人建立,或者在没有适当控制的情况下运行的,就可能会造成一些彻头彻尾的危险。而更糟糕的是,这些问题可能要等到系统实施后才能显现出来,这时再修复技术、挽回损失就为时已晚。

发布AI和机器学习产品的技术供应商,需要首先确定从价值链的哪个部分开始民主化。在光谱的一端是数据,人工智能系统特别是机器学习运行在大量结构化和非结构化数据上,它是组织可以从中产生洞察力并进行决策的原材料。这些数据的原始形式是很容易民主化的,使人们能够进行基本的分析。

接下来是数据输入的算法。随着数据投入使用,复杂性会增加。但在这一点上,民主化仍然相对容易实现,算法也可以被广泛访问。微软于2018年购买的GitHub等开源代码库在过去十年中一直在显著增长。

随着光谱继续向存储和计算平台转移,复杂性也在增加。在过去的五年里,人工智能的技术平台已经转移到云端,有三个主要的人工智能/机器学习的提供商:亚马逊网络服务(Amazon Web Services)、微软Azure和谷歌计算引擎(Google Compute Engine),这使得中央处理单元和图形处理单元能够以现收现付的方式供最终用户使用,大大减少了进入障碍。然而,虽然算法是硬件无关的(它们通常可以在任何硬件或云平台上运行),但云存储和计算平台要求用户接受特定的培训并获得技术供应商的认证。

现在来到模型开发阶段。模型解决了特定的问题:一些成为推荐引擎,一些成为面部识别系统,等等。在这里,我们看到了自动化机器学习(AutoML)平台和工具的民主化。例如,自动化接收各种数据格式(结构化、半结构化和非结构化)以及在同一数据集上运行多个算法并选择最佳算法集合的能力,将使模型开发过程更易于访问和更快。但是如果没有得到适当的培训,就很有可能在模型中产生偏见,无法解释模型的结果,甚至做出错误的决策。

频谱的最远端是创建数据、算法和模型市场的早期阶段。针对这些问题的企业和人才市场也正在涌现。Kaggle创建于2010年,于2017年被谷歌收购,是数据科学或人工智能市场最著名的例子之一。但误解它们并应用到错误环境中的风险也大大增加了,系统性滥用模型的危险正在上升。

在一项重要手术之前,你会确保外科医生是合格的、有经验的。同样,你应该确保拥有扎实的技术经验、对人工智能系统关键组件有良好的理解并做出负责承诺的人在设计、测试和维护人工智能系统。

虽然供应商通常会声称实现了数据接收、清理和挖掘的民主化,但谁在访问这些工具和模型呢?这些用户是否接受过适当的培训?人工智能民主化的受益者有三大类:临时用户、超级用户和专业开发人员。临时用户和专业开发人员处于两个极端,而超级用户介于两者之间,他们比临时用户的知识更丰富、训练更加有素,但又不是专家级的工作者。公司需要通过各种方案确定对象是这三类目标中的哪一种。当我们说自己正在实现模型开发的民主化时,是只为专业的数据科学家而这样做呢,还是试图也对普通用户和超级用户民主化呢?如果是后者,则需要格外小心。

定义了你想要民主化的内容,以及谁将使用这些工具之后,你还需要在五个领域采取行动。

第一个领域是训练。如果临时用户或未经培训的用户不理解将数据拆分为训练、验证和测试的重要性,就很容易最终使用产生不准确或意外结果的人工智能。培训那些拥有适当数据科学基础的普通用户或超级用户是至关重要的。

第二个领域是数据管理。需要明确输入人工智能平台数据的所有权和控制权,以及权利与产生见解之间的关系。为特定的AI/ML程序收集数据用于其他应用程序时,很容易失去对数据来源、收集目的、如何修改以及如何保护的可控性。“影子人工智能”(Shadow AI)也是一个关注点,它使用的数据不受组织内团队的控制,团队职责是确保数据的完整性。为了最小化风险,应该使用被监控、安全和理解的数据来构建AI/ML模型。

第三个领域是模型管理。组织通常将数据治理作为公司合规活动的一部分,很少有组织会尽可能密切地监控人工智能系统中涉及的其他元素。因此控制措施必须到位,以确保模型开发具有适当的成功或验证指标。

第四个领域是知识产权。如果不明确知识产权的归属,民主化带来的好处就不可能实现。许多公司拒绝使用云平台进行图像或音频处理,担心机密信息会在四壁之外被处理,而且云解决方案提供商将使用从他们的数据中产生的洞察并从中受益。随着越来越多的公司意识到民主化的全部力量来自数据而不是工具和平台本身,他们可能会要求一定程度的知识产权。

第五个领域是开放式采购。参与各方都需要作出开源,只要不侵犯隐私、机密性和竞争动态。如果不能关闭从所有权到使用权的封闭循环,将形成一种单向流动,其中一些参与者,通常是资金充足的大公司或政府将从民主化中受益更多,而资源较少的人将被落在后面。