生成式AI发展需拧紧数据“安全阀”

慧聪通信网 2024-02-23 11:37 来源：慧聪通信网

作者：肯睿中国Cloudera 大中华区技术总监刘隶放

【慧聪通信网】2023年毫无疑问是生成式AI爆发式发展的一年，以ChatGPT为首的生成式AI技术在全球点燃研发浪潮，大语言模型迅速席卷全球科技界。进入2024年，生成式AI注定仍将成为全球关注的焦点，有望将我们带入一个繁荣的新兴产业时代。然而，AI带来的风险不容小觑，生成式AI的可信度、隐私保护、安全性等问题亦引发空前争议。

数据隐私日作为一项全球倡议，是对数据安全和隐私保护不断变化的挑战的重要提醒。随着全球范围内数据泄露事件的激增，尤其生成式AI在越来越多的企业中被广泛采用，该倡议变得愈发重要，企业也在不断加大数据隐私领域的投入。根据Gartner的预测，到2024年，大型企业机构的年均隐私预算将超过250万美元。

可信AI的关键在于可信数据

鉴于生成式AI取得革命性突破，各行各业争相布局，涌入产业创新快车道。根据IDC预测，到2026年，中国40%的企业将掌握生成式AI的使用，共同开发数字产品和服务。其中，聊天机器人、自动报告生成和个性化电子邮件都是生成式AI推动创造力和生产力并改善客户体验的典范。然而，值得注意的是，人工智能/机器学习模型的质量取决于它们所训练的数据。因此，打造可信AI的关键是拥有可信数据。

随着企业希望在整个业务中部署更多的人工智能和机器学习（ML）技术，对可靠数据平台的需求在不断增加，以帮助其跨所有环境访问数据。AI/ML的技术发展甚至让企业能够从非结构化数据中提取价值，这使得所有数据的管理、治理和控制变得至关重要。如果企业数据平台内拥有可信的数据，那就为建立AI大模型奠定了基础。

此外，越来越多的企业希望实现数据民主化，即降低数据访问门槛，授权合适的员工访问合适的数据，以此提升运营效率。当数据的边界扩大，对于数据隐私和安全治理也提出了更高的要求。

为了确保AI生态朝向正确的轨道健康发展，需要不断完善的立法支撑。近年来，我国陆续颁布实施了《网络安全法》《数据安全法》和《个人信息保护法》等法律法规，组成了数据安全领域的“三驾马车”。在此体系基础上，数据安全和隐私保护得到了政策和市场需求的双重推动，产业正处于快速增长阶段。

现代化平台成为数据隐私的“安全保镖”

基于日益完善的法律法规，企业也必须不断发展自身的数据系统以满足数字时代的新需求，重新思考他们所采取的措施，来确保数据的隐私安全。为了应对数据安全和隐私风险，企业必须在制定战略和计划时将数据安全和治理放在首位。投资具有内置安全和治理功能的现代化数据平台和工具，可以帮助企业以安全和符合监管要求的方式实现数据民主化，同时成功训练企业人工智能/机器学习模型。

总之，数据隐私问题变得愈发复杂，如果不及时采取现代化措施保护数据安全，可能导致企业面临法律、金融和声誉等风险。企业需要将数据隐私嵌入到其运营结构中，将其作为核心功能，并通过人员、流程和企业数据管理技术来提供支持，以确保其客户、合作伙伴和最终用户的数据隐私得到保护。而且，数据隐私保护必须成为一种主动的战略性功能，主动防御而非在数据泄露之后进行补救。

Cloudera建议采用六步方法来构建安全的数据基础——找到数据、加密、管理、溯源、检索、以及发送警报。无论数据位于何处，Cloudera都能帮助客户检索和定位所有数据，并通过令牌化或加密来保护数据。此外，通过数据溯源，能够轻松进行审计跟踪和访问控制，确保合适的人访问合适的数据。一旦发现有违规行为，便会立即发送警报，阻止企业数据被不正当使用。

Cloudera的数据平台（CDP）使构建、部署和管理机器学习应用变得更快、更容易，而且更安全。通过降低成本和简化操作，CDP减少了在整个企业中引入新数据隐私用例所需的时间，其安全和治理功使企业能够在公有云、本地和私有云中的任何地方控制数据。基于这样的现代化数据平台，企业将能够获取完整、可信的数据，进而利用人工智能加速业务创新与安全转型。