谷歌确认正在抓取网络数据对Bard进行训练
【慧聪通信网】周一,Gizmodo发现谷歌更新了其隐私政策,披露公司可能会使用从网络上抓取的公共数据来训练其各种人工智能服务,如Bard和Cloud AI。
谷歌发言人克里斯塔·马尔登(Christa Muldoon)对The Verge表示:“我们的隐私政策一直都明确表示,谷歌使用来自开放网络的公共可获得信息来训练语言模型,用于Google翻译等服务。”“此次更新仅是澄清了新的服务(如Bard)也包括在内。我们在开发AI技术时将隐私原则和保护措施纳入其中,符合我们的AI原则。”
根据2023年7月1日更新后的内容,谷歌的隐私政策现在表示,“谷歌使用信息改进我们的服务并开发有益于用户和公众的新产品、功能和技术”,并且公司可能会“使用公开可获得的信息来帮助训练谷歌的AI模型,并构建产品、功能和Google翻译、Bard以及Cloud AI能力”。
从该政策的修订历史中可以看出,更新为使用收集的数据来训练的服务提供了一些额外的明确说明。例如,文件现在表示,该信息可能用于“AI模型”,而不是“语言模型”,这使得谷歌在使用公共数据进行训练和构建系统时具有更多的自由。甚至该说明也被嵌入在政策的“您的本地信息”选项卡下的一个名为“公开可访问的来源”的嵌入链接中,您必须点击该链接才能打开相关部分。
更新后的政策明确指出,“公开可获得的信息”用于训练谷歌的AI产品,但未说明公司将如何(或是否)防止包含受版权保护的材料在数据池中。许多公开可访问的网站都有禁止数据收集或网络抓取以用于训练大型语言模型和其他AI工具集的政策。这种方法在GDPR等全球法规的保护下可能会引发一些有趣的影响,这些法规旨在保护人们的数据不被未经明确许可的方式滥用。
这种法律的组合以及市场竞争的增加使得像OpenAI的GPT-4这样的受欢迎的生成式AI系统的制造商极为谨慎,不愿透露训练它们所使用的数据来源以及是否包括社交媒体帖子或人类艺术家和作者的受版权保护作品。当前,关于公平使用原则是否适用于这种应用的问题存在法律灰色地带。这种不确定性引发了各种诉讼,并促使一些国家的立法者制定更严格的法律,以更好地监管AI公司收集和使用其训练数据的方式。这也引发了关于如何处理这些庞大的训练数据以确保其不会导致AI系统出现危险故障的问题,处理这些数据的人员通常需要长时间工作且工作条件极其艰苦。
美国最大的报纸出版商甘奈特(Gannett)正在起诉谷歌及其母公司Alphabet,声称AI技术的进步帮助这家搜索巨头在数字广告市场上垄断。谷歌的AI搜索测试版等产品也被称为“抄袭引擎”,并因剥夺网站的流量而受到批评。
与此同时,Twitter和Reddit这两个包含大量公共信息的社交平台最近采取了极端措施,试图阻止其他公司自由收集它们的数据。这些平台对API进行了更改和限制,这些变化对各自社区产生了不良影响,因为反网络抓取的变化对核心的Twitter和Reddit用户体验产生了负面影响。