近年来AI技术的发展可谓日新月异,尤其是2022年OpenAI公司ChatGPT的发布点燃了AI行业发展的浪潮,各种AI产品层出不穷——OpenAI的ChatGPT-4、“好未来”公司的AI讲题机器人“小π”、“科大讯飞”的AIGC内容创作平台“讯飞智作” 和讯飞星火认知大模型等。AI行业的蓬勃发展带给我们的是科技的进步、生活的方便……“风浪越大鱼越贵”这句话倒过来也是成立的,因此我们亟需分出部分心思关注一下潜藏在这份进步与便利之后的风险。
2014年,聊天机器人“微软小冰”在用户的调戏和谩骂下,也开始爆粗口;2016年,聊天机器人Tay在推特上发布,并迅速变成了一个公然的种族主义、厌女主义和反犹太主义者;2020年,韩国推出少女聊天机器人Luda,大量用户用语言对它进行性骚扰,不久后,Luda就开始说出歧视性少数、女性和残疾人的言论……这些都是很典型的人类“投毒”后AI的表现。
”数据毒化“ 是AI技术的伴生攻击手段,其指的是恶意修改或注入训练数据以使得人工智能模型产生错误或不可预测的行为的攻击技术。攻击者可以通过恶意操作来制造数据集中的偏见或错误。例如,他们可以有目的地添加具有特定偏见的数据,以歪曲模型的行为或影响模型的判断。这些攻击可能会损害AI模型的性能、可靠性和安全性,使其产生错误的预测或受到操纵。
传感器在生产生活中用于感知环境中的物理信息,例如图像、声音、位置等,在AI系统中起着关键的作用。攻击者可以通过添加特定的噪声、修改图像内容或利用对抗性样本来欺骗图像识别系统,使其错误地识别物体或无法检测到存在的物体。前两年网上流传的特斯拉在墓地或无人的空地识别到了多个人,这都是AI对物体错误识别的结果。可以想象如果在行驶的道路上将人识别为空会有多么严重的后果。
其实,无论是文本信息、图像信息或其他信息在AI中都是有一个处理流程的,通常包括以下几个步骤:
1.数据收集:首先,需要收集并获取所需的数据。这可以包括结构化数据和非结构化数据。数据可以从各种来源获取,包括公共数据库、传感器、日志文件、社交媒体等。
2.数据清洗和预处理:获得数据后,需要对其进行清洗和预处理。这包括去除噪声、处理缺失值、处理异常值、标准化数据等。数据清洗和预处理的目的是确保数据质量和一致性,以提高后续处理和分析的准确性。
3.特征提取和选择:在数据预处理之后,通常需要从原始数据中提取有意义的特征。特征提取的目的是减少原始数据的维度,并捕捉到对问题解决有用的特征。
4.模型选择和训练:在确定特征之后,需要选择适当的机器学习或深度学习模型来训练。这取决于问题的性质和可用数据的类型。
5.模型训练和优化:在选择模型后,需要使用标记的数据对模型进行训练。通过迭代优化算法,模型会根据输入数据来尽可能准确地预测输出。
6.数据的存储与管理:在数据处理完成后,需要对数据进行存储和管理,以便后续的使用和访问。这可以包括数据仓库、数据库、云存储等方式。
如果有特殊的需要可能还会存在其他的处理方式,但每多一道处理流程数据安全的风险就更高一分。例如:攻击者可以在数据收集和训练阶段进行数据注入攻击,以影响模型的训练和性能;可以在模型预测结果的输出过程中进行隐私泄露攻击,即通过分析模型的输出来揭示关于个人或机构的敏感信息;在模型训练和部署阶段进行模型篡改攻击,从而影响模型的预测结果……因此在AI中的数据如何安全地使用也成为了当前的一个热门话题,这里就浅提几点:
1.数据隐私:AI系统通常需要大量的数据来进行训练和改进,但这些数据可能包含敏感信息。保护数据隐私是确保个人和机构数据不被滥用或泄露的重要任务。隐私保护方法包括数据脱敏、数据加密、数据匿名化和访问控制等技术手段。
2.数据泄露:AI系统通常在云平台上进行训练和部署,这可能会带来数据泄露的风险。数据泄露可能导致知识产权损失、商业竞争力下降,甚至引发个人隐私泄露和社会风险。因此,确保数据在存储、传输和处理过程中的安全性至关重要。保护数据的方法包括加密通信、安全验证、访问控制和安全审计等。
3.对抗性攻击: AI系统可能受到对抗性攻击,攻击者通过对数据进行有意的修改或注入有害信息,从而欺骗或误导AI系统的行为和决策。对抗性攻击的例子包括图像、语音和文本领域的注入攻击、对抗性样本攻击等。为了防止对抗性攻击,需要采用安全的训练数据集、对抗性样本检测和对抗性训练等方法。
4.数据滥用:AI系统处理的数据可能被滥用,用于不当的目的或进行歧视性决策。这可能导致个人权益受损、社会不公和道德问题。确保AI系统使用数据的合规性和公正性是重要的。这包括制定和遵守数据使用政策、对数据进行审查和监控,并进行透明度和可解释性的提升。
5.数据存储和访问控制:为了保护数据安全,合理的数据存储和访问控制是必要的。这意味着采取适当的安全措施来保护存储数据,例如使用防火墙、数据加密和访问控制策略。此外,对数据访问进行严格的身份验证和权限管理,以确保只有授权人员可以访问数据。
6.法律和监管合规性:AI使用的数据需要符合法律和监管的要求。随着数据隐私和安全的重要性不断增加,各国和地区都在制定和加强相应的法律和监管框架,以保护数据安全。机构和个人需要遵守相关法规和标准,同时采取额外的安全措施确保数据安全。
保护数据隐私、防止数据泄露、抵御对抗性攻击、防止数据滥用、实施合理的数据存储和访问控制,以及遵守法律和监管要求等,都是确保数据安全的关键因素。AI发展背后的数据安全是一个重要、复杂且需要长久关注的问题,需要所有的相关方参与进来,共同建立起一堵防止风险事件的围墙。