警惕!AI正在“吞食”你的数据
视觉中国供图
□ 科普时报记者 陈 杰
AI大模型的热度,已然开始从产业向日常生活渗透,并引起不小的舆论旋涡。近日,网友指出国内某智能办软件有拿用户数据“投喂”AI之嫌,引发口水的同时,再度把公众对AI的关注转移到数据安全上。
身处智能时代,我们在使用或跟AI交互时,该如何保护自己的数据安全?我们的个人数据可以被AI产品或平台随意收集和使用吗?科普时报记者就这些公众关心的问题采访了产业相关人士及行业专家。
AI普遍缺乏“营养”
此次舆论事件,以修改引发误会的隐私政策并承诺不会拿用户文档训练AI而暂告一段落。但清华大学人工智能研究所博士、独到科技CEO张文浩告诉记者,“以用户数据训练AI,在大模型行业普遍存在。”
今年7月份,谷歌及其AI子公司DeepMind、视频会议平台Zoom均因收集用户数据用以训练和开发AI产品而引发用户强烈担忧……
“数据被比作信息时代的‘石油’,重要性不言而喻。”文渊智库研究员王超告诉记者,用于训练数据的丰富程度和质量决定了AI的优劣,也只有优质海量的数据“投喂”,才能培养出更聪明、更先进的版本。
iEnglish智能英语学习解决方案技术研发负责人贾先好表示,2018年GPT迭代使用了1.1亿学习参数,到2020年GPT-3已达到惊人的1750亿参数。“这些迭代的背后是45TB的海量文本数据,AI其实是一场包含海量学习参数在内的纯粹工程化的胜利。”
当下,全球各大科技公司发布的AI大模型已超数百个,而用于训练这些大模型的数据虽然海量但缺少精细“营养”,这也让快速迭代中的AI普遍都“吃”得不怎么好。
用户的数据“真香”
训练AI所需的海量数据,目前主要的来源包括互联网抓取的数据、网络百科全书、书籍文献,以及一些开源数据集等公开数据。但新壹科技技术副总裁陈鹏认为,这些数据仅有数量优势,而缺少让AI变得更聪明的高质量数据。“鉴于用户数据的多样性、真实性,以及个性化等特征,很多公司和机构会收集一定的用户数据来进行训练,提高AI模型的准确性和可靠性。”
“在AI训练中,普遍使用的RLHF(基于人类反馈的强化学习)技术就需要在迭代过程中不断根据人类反馈来优化自身行为,有助于提高机器在不同场景下的泛化能力,使其行为更加符合人类期望。”张文浩表示,RLHF技术在模仿学习阶段需要使用用户的交互数据来改进其策略,这也是优化用户体验的一种方式。
用户数据之所以被AI相中,是因为这些数据的内容非常丰富,基本上涵盖了各个领域和主题,正是AI训练所急需的“精料”。
训练AI要守“底线”
对于AI而言,用户数据确实很“美味”,但对于用户而言,过度的采集可能对个人信息安全和财产安全造成不小的威胁。
“用户数据用于训练AI时会被分析和解读,并揭示出用户诸如个人喜好、行为习惯、健康状况等隐私信息。”陈鹏表示,这些信息一旦被非法利用,就会导致用户身份盗窃、网络诈骗等情形的发生。
中国广告主协会互联网电商分会秘书长张俊良提醒,用户数据被“投喂”给AI,非常容易带来用户核心信息的泄漏。“所以,我们在使用大模型或者跟大模型交互时,尽量避免透露自己的隐私信息。”
用户数据可以用于AI训练吗?陈鹏认为,过度收集用户数据不可避免地会面临诸如隐私安全、数据合规性的挑战。“不过,现在行业内已经开始通过数据脱敏、加密技术和审计技术等来保护用户数据隐私了。”
贾先好表示,在数据的生产、保存、读取、更改、迁移、存档等生命周期内,AI企业应该采取相应的安全措施,以确保这些数据不会被未经授权的访问、篡改或者滥用。
其实,今年8月15日起实施的《生成式人工智能服务管理暂行办法》就明确,应当依法开展预训练、优化训练等训练数据处理活动,使用具有合法来源的数据和基础模型;涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形。
张文浩建议,各大科技公司应遵守相关法律法规,确保数据收集、处理和使用的合法性。“总之,企业在做AI训练时,应严格遵循个人数据使用‘最小化原则’,要守得住‘底线’。”
王超则认为,《生成式人工智能服务管理暂行办法》给国内AI产业指明了方向,也划定了范围。“但仅凭一部暂行办法并不能解决所有问题,AI是一次底层的技术革命,未来一定会碰到更多的问题,这就需要监管部门及时有效制定出监管措施,进一步规范产业的发展。”
上一篇:为什么听损越轻,越难选配助听器?爱可声为您揭秘背后原因
下一篇:没有了
- 凡本网注明"来源:的所有作品,版权均属于中,转载请必须注明中,。违反者本网将追究相关法律责任。
- 本网转载并注明自其它来源的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品来源,并自负版权等法律责任。
- 如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。
- 01艾德证券期货:优衣库海外市场首
艾德证券期货研究部获悉,近日,全球知名的日本服装品牌UNI[详细]
- 02MQ STUDIO & MYHAIR SALON《初见 焕发
2019年10月16日,MQ STUDIO MYHAIR SALON联合发布《初见 焕发》2020发型趋[详细]
- 03“丰饶中国”品牌论坛在京成功举
4月22日下午,由人民大学中国乡村振兴研究院、中国农业电影电[详细]
- 04恒宗集团荣登纽约纳斯达克大屏向
中国农历兔年春节期间,山西恒宗大健康产业集团董事局主席杨[详细]
- 05ChatGPT激发英语学习之争 智能化解
ChatGPT在教育领域引发的人工智能热潮正在激发广泛的讨论。其中[详细]
- 06睿轩保理公司:浅析商业保理发展
保理业务因为适应了提升国内、国际贸易竞争力的需要,已成为新[详细]
- 07探访中国优秀军创企业---兵管家创
心若在,梦就在 探访中国优秀军创企业---兵管家创始人高伟先生[详细]
- 08金沙中国举行澳门伦敦人首阶段揭
(澳门, 2021 年 2 月 8 日) 万众期待的 澳门伦敦人 于2月8日([详细]
- 09培养自信专注有爱心的孩子,全纳
2019年3月2日上午,深圳市龙岗区萃华教育城热闹非凡,随着喧鸣[详细]
- 01广西举行第54个世界地球日主场宣
今年4月22日是第54个世界地球日。在世界地球日来临之际,4月[详细]
- 02攀升电脑董事长陈孝军当选黄陂区
5月10日,武汉市黄陂区工商业联合会(总商会)第六次代表大会暨[详细]
- 03四川铜币(一组)
四川铜币军是由四川铜元钱币演变过来的,早铜元清光绪二十八年[详细]
- 04霍思燕杜江加盟《妻子的浪漫旅行
拥有超高人气的夫妻观察治愈类节目《妻子的浪漫旅行3》开播在[详细]
- 05收藏艺术 品赏文化
藏品名称:开国领袖毛泽东宝玺 藏品形状:花雕 藏品材质:和田玉[详细]
- 06冻龄女神周韦彤坐镇模特大赛总评
近日,国际名模、冻龄女神周韦彤受邀出席第二十五届中国模特之[详细]
- 07护肤品产品找客户大揭秘,帮你爆
互联网经济时代,不管您是微商,电商,还是做淘宝,最需要的就[详细]
- 08世界慢阻肺日丨百龄细胞“干细胞
2023年11月15日是第22个世界慢阻肺日,今年的主题是肺系生命,刻[详细]
- 09数字阅读渐成人们生活方式
iEnglish未来教育研究院近日发布了《iEnglish2022数字阅读报告》([详细]
- 01占抗衰市场份额八成之高的NMN为何
能在血雨腥风的商界里闯出名堂,相信这些大佬头脑有别于凡人[详细]
- 02“中华民国三年壹圆”(私铸币)
袁大头是民国时期主要流通货币之一,袁大头是对 袁世凯 像系[详细]
- 03四川开江·田城文化旅游艺术节(
田城开江,荷美虾香。7月28日,四川开江田城文化旅游艺术节,[详细]
- 04阿联酋国际合作论坛暨“一带一路
2023年3月29日下午,为推动共建一带一路高质量发展和为实现国内[详细]
- 05光绪元宝户部造
近年来,中国的收藏界风起云涌,很多藏品大幅升值,而其中升值最[详细]
- 06缅甸小勐拉欧亚国际,追寻信仰的
早上15*33166*8828的飞机,我硬生生设的3点半的闹钟,送机的4点来接[详细]
- 07中国工商银行私人银行创新,推出
近日,中国工商银行私人银行携手华宝信托有限责任公司(以下[详细]
- 08万灵财税咨询(上海)有限公司—
访万灵财税咨询(上海)有限公司总经理刘江洪。刘江洪,男,1978年[详细]
- 09区块链3.0代表项目:GPC环球支付系
自从进入2018年下半年,数字货币行业进入寒冬,币价萎靡不振,[详细]