零分Trader

AI时代隐私风险:大模型数据安全与个人隐私保护的重要性

作者头像
分析师熊大 本文作者

2025-1-17 阅读 153 约 15分钟读完

评论0

AI时代,用户输入的信息不再仅仅属于个人隐私,而是成为大模型前进的“敲门砖”。

“给我做一个PPT”、“给我做一个新年海报”、“帮我总结一下文档的内容”。大模式流行之后,利用AI工具提升效率已经成为白领的日常,甚至很多人开始利用AI订外卖、订酒店。

然而,这种数据收集和使用方式也带来了重大的隐私风险。许多用户忽视了数字时代,使用数字技术和工具的主要问题之一是缺乏透明度。他们不知道这些人工智能工具的数据是如何收集、处理和存储的,也不确定数据是否被滥用或泄露。

今年3月,OpenAI承认ChatGPT存在漏洞,导致部分用户的历史聊天记录泄露。该事件引发公众对大模型数据安全和个人隐私保护的担忧。除了ChatGPT数据泄露之外,Meta的AI模型也因侵犯版权而饱受争议。今年4月,美国作家、艺术家等组织指控Meta的AI模型盗用他们的作品进行训练,侵犯了他们的版权。

同样,国内也发生过类似事件。近日,爱奇艺与“大模六小虎”之一的MiniMax因版权纠纷而备受关注。爱奇艺指控海螺人工智能未经许可使用其受版权保护的材料来训练模型。本案是国内首例视频平台针对大型AI视频模型的侵权诉讼。

这些事件引发了人们对大模型训练数据的来源和版权问题的关注,表明人工智能技术的发展需要建立在保护用户隐私的基础上。

为了了解目前国内大模型信息披露的透明度情况,《科技报》选取了市场上7款主流大模型产品:豆宝、文心一言、kimi、腾讯混元、星火模型、统一钱文、快手克灵作为样本我们通过隐私政策和用户协议评测、产品功能设计体验等进行了实际测试,发现很多产品在这方面做得并不好。我们也清楚地看到了用户数据和AI产品之间的敏感性。关系。

01. 撤销权只是名义上的

首先,从《科技报》的登录页面可以清楚地看到,这7款国产大型模型产品均遵循互联网APP“标准”的使用协议和隐私政策,并且都在不同的章节中进行了说明。告知公众的隐私政策文本。有关如何收集和使用个人信息的用户说明。

这些产品的表述基本相同,“为了优化和提升服务体验,我们可能会根据用户反馈的输出内容以及使用过程中遇到的问题来改进服务。经过安全加密技术处理并严格设计在识别的前提下,用户向AI输入的数据、发出的指令、AI生成的相应响应以及用户对产品的访问和使用都可以被分析并用于模型训练。

事实上,利用用户数据来训练产品,然后迭代出更好的产品供用户使用,这似乎是一个正循环。但用户关心的问题是,是否有权拒绝或撤回“喂食”AI训练的相关数据。

《科技报》在对这七款AI产品进行审查和测试后发现,只有豆宝、科大讯飞、统一千文、科灵在其隐私条款中提到可以“改变授权产品的范围以继续收集个人信息”。或撤销授权”。

其中,豆宝主要以语音信息撤回授权为主。该政策规定,“如果您不希望您输入或提供的语音信息用于模型训练和优化,您可以通过关闭“设置”-“账户设置”-“改善语音服务”来撤回授权;但对于其他信息,您需要通过公开联系方式联系官方,请求撤回用于模型训练和优化的数据。

图片来源/(豆包)

在实际操作中,关闭语音服务的授权并不困难,但对于其他信息的撤回,《科技报》联系豆宝官方后一直未能得到回复。

图片来源/(豆包)

统一钱文与豆宝类似。个人唯一能做的就是撤回语音服务的授权。对于其他信息,还需要通过公开的联系方式与官方联系,以变更或撤销收集、处理个人信息的授权范围。 。

图片来源/(同义钱文)

作为视频和图像生成平台,科灵对人脸的使用做出了强烈声明,表示不会将您的面部像素信息用于任何其他目的或与第三方共享。但如果想取消授权,需要发邮件联系官方取消。

图片来源/(科灵)

与豆宝、统一钱文、科灵相比,科大讯飞的要求更为严格。根据条款,用户如需变更或撤销个人信息收集范围,需注销账户。

图片来源/(科大讯飞Spark)

值得一提的是,虽然腾讯元宝在条款中没有提及如何更改信息授权,但我们可以在APP中看到“语音功能改进计划”的切换。

图片来源/(腾讯元宝)

尽管Kimi在其隐私条款中提到,可以撤销向第三方共享声纹信息,并可以在APP中进行相应的操作,但《科技报》搜索了很久并没有找到更改入口。至于其他基于文本的信息,没有找到相应的术语。

图片来源/(Kimi隐私政策)

其实从几款主流大机型应用中不难看出,它们各自都比较注重用户声纹管理。豆宝、同易新闻等可以通过独立操作取消授权,而对于地理位置、摄像头、麦克风等特定交互情况下的基本授权也可以独立关闭,但“喂”数据的撤回就不那么顺利了对于每个公司。

值得一提的是,海外大模型在“用户数据退出AI训练机制”方面也有类似做法。 Google 的 Gemini 相关条款规定,“如果您不希望我们审查未来的对话或使用相关对话来改进 Google 的机器、学习技术,请关闭 Gemini 应用程序活动记录。”

此外,Gemini 还提到,在删除自己的应用活动记录时,系统不会删除已经经过人工审核者审核或评论的对话内容(以及语言、设备类型、位置信息或反馈等相关数据),因为这些内容是单独保存的,不与Google帐户关联。此内容将保留最多三年。

图片来源/(双子座术语)

ChatGPT的规则有些模糊,称用户可能有权限制个人数据的处理,但在实际使用中发现Plus用户可以主动设置禁用数据进行训练,但对于免费用户来说,数据通常默认收集并用于训练。想要选择退出的用户需要发送官方电子邮件。

图片来源/(ChatGPT术语)

事实上,从这些大型号产品的条款中不难看出,收集用户输入信息似乎已经成为一种共识。然而,对于声纹、人脸等更多隐私生物信息,只有部分多模态平台表现稍差。

但这并不是缺乏经验,尤其是对于各大互联网公司而言。例如,微信的隐私政策详细说明了每次数据收集的具体场景、目的和范围,甚至明确承诺“不会收集用户的聊天记录”。抖音也是如此。用户在抖音上传的信息几乎所有标准使用方式、使用目的等都在隐私政策中进行了详细描述。

图片来源/(抖音隐私条款)

在互联网社交时代被严格控制的数据获取行为,如今已经成为AI时代的常态。用户输入的信息已经被大型模型厂商打着“训练语料库”的口号免费获取。用户数据不再被视为需要严格对待的个人隐私,而是模型进步的“垫脚石”。

除了用户数据之外,对于大规模的模型尝试来说,训练语料的透明度也至关重要。这些语料是否合理合法、是否构成侵权、用户使用是否存在潜在风险等都是问题。我们带着疑问对这7款大模产品进行了深入的挖掘和评测,结果让我们大吃一惊。

02.“喂食”训练语料的隐患

对于训练大型模型来说,除了计算能力之外,高质量的语料库更为重要。然而,这些语料库往往包含受版权保护的文本、图片、视频等多元化作品,未经授权使用显然会构成侵权。

经过《科技报》实际测试发现,这7款大模型产品均未在协议中提及大模型训练数据的具体来源,更没有公开版权数据。

大家都默契不公开训练语料的原因也很简单。一方面可能是因为数据使用不当很容易引发版权纠纷。目前对于人工智能企业使用正版产品作为训练语料是否合法合法,尚无相关规定。另一方面可能与企业之间的竞争有关。企业的公共培训语料库相当于食品公司告诉同行原材料,同行可以快速复制并提高产品水平。

值得一提的是,大多数车型的政策协议中都提到,用户与大车型互动中获得的信息将用于模型和服务优化、相关研究、品牌推广和宣传、市场营销、用户研究等。等待。

坦白讲,由于用户数据质量参差不齐、场景深度不足、边际效应存在等多种原因,用户数据很难提升模型能力,甚至可能带来额外的数据清理成本。但即便如此,用户数据的价值依然存在。只是它们不再是提升模型能力的关键,而是企业获取商业利益的新途径。通过分析用户对话,企业可以洞察用户行为,发现变化的场景,定制业务功能,甚至与广告商共享信息。而这些也恰好符合大型号产品的使用规律。

但也需要注意的是,实时处理时产生的数据会上传到云端进行处理,也会存储在云端。尽管大多数大型机型在隐私协议中提到其使用的加密技术不低于业界同行。 、匿名化及相关的可行手段来保护个人信息,但这些措施的实际效果仍令人担忧。

例如,如果将用户输入的内容作为数据集,当其他人在一段时间后向大模型询问相关内容时,就会带来信息泄露的风险;另外,如果云或产品受到攻击,是否还可以通过关联或分析技术恢复原始信息,这也是一个隐患。

欧洲数据保护委员会(EDPB)最近发布了关于人工智能模型处理个人数据的数据保护指南。 《意见》明确指出,人工智能模型的匿名性不能通过单一声明建立,必须通过严格的技术验证和不懈的监控措施来保证。此外,《意见》还强调,企业不仅要证明数据处理活动的必要性,还必须证明在处理过程中采用了对个人隐私侵犯最少的方式。

因此,当大型模型公司收集数据“以提高模型性能”时,我们需要更加警惕,思考这是否是模型改进的必要条件,或者该公司是否在滥用用户数据用于商业目的。

03.数据安全模糊地带

除了常规的大模型应用外,代理和端侧AI的应用带来的隐私泄露风险更加复杂。

与聊天机器人等人工智能工具相比,座席和端端人工智能在使用时需要获取的个人信息将更加详细和有价值。过去手机获取的信息主要包括用户设备和应用信息、日志信息、底层权限信息等;在端侧AI场景和目前主要基于读屏和录屏的技术方法中,除了上述综合信息权限外,终端代理往往还可以获取录屏文件本身,并进一步分析模型以获取各种敏感信息例如身份、位置、付款方式等。

例如,荣耀此前在发布会上演示了外卖场景。这样,位置、支付、偏好等信息就会被AI应用默默读取并记录,增加了个人隐私泄露的风险。

正如“腾讯研究院”此前分析的那样,在移动互联网生态中,直接向消费​​者提供服务的App一般被视为数据控制者,在电商、社交、旅行等服务场景中负责相应的隐私。保护和数据安全责任。然而,当设备端AI代理根据APP的服务能力完成特定任务时,终端厂商与APP服务商在数据安全方面的责任边界变得模糊。

制造商经常以提供更好的服务为借口。从整个行业的体量来看,这并不是一个“正当理由”。苹果情报明确表示,其云端不会存储用户数据,并使用多种技术手段阻止包括苹果本身在内的任何组织获取用户数据并赢得用户信任。

毫无疑问,目前主流的大模型在透明度方面还有很多问题需要解决。无论是用户数据的撤回困难、训练语料来源的不透明,还是代理和客户端AI带来的复杂的隐私风险,都在不断侵蚀着用户对大型模型的信任基石。

作为推动数字化进程的关键力量,大模型的透明化已刻不容缓。这不仅关系到用户个人信息的安全和隐私保护,也是决定整个大型模型行业能否健康可持续发展的核心因素。

未来,我们期望各大模型厂商积极应对,积极优化产品设计和隐私政策,以更加公开透明的方式向用户清楚地解释数据的来龙去脉,让用户可以放心使用大模型技术。同时,监管部门还应加快完善相关法律法规,明确数据使用规范和责任边界,为大模型产业营造创新、安全、有序的发展环境,让大模型真正成为造福人类的有力工具。

上一篇 2024年加密货币风险投资活动低迷,Galaxy Digital报告揭示原因 下一篇 2024年全国新房销售额近10万亿元,70城房价变动数据发布
评论
更换验证码