这是课程的第七篇笔记,也是关于AI伦理的一周。
前面学下来,我一直有个隐隐的担心:AI越来越强,然后呢?它会公平对待每一个人吗?它会被人故意利用做坏事吗?我们该怎么面对它?
教授用了一个童话比喻——金发姑娘和三只熊。
粥不能太烫,也不能太冷。床不能太硬,也不能太软。
对AI的态度,也得是这样。
太乐观的人,觉得AGI(强人工智能)马上要来了,AI要统治世界了,于是投入大量资源去防备“几十年甚至几百年后才可能出现的风险”。教授说,这种恐惧让人分心,忽略了真正该关心的问题。
太悲观的人,觉得AI什么都做不了,泡沫要破了,“AI寒冬”要来了。但现实是,AI已经在创造巨大经济价值,而且还会继续。
所以正确的态度是中间那条路——既看到AI的能力,也看清它的局限。
这个“金发姑娘原则”,我记住了。
很多高性能AI是黑盒模型——它能给你正确答案,但说不清“为什么”。
比如一张X光片,AI诊断“右肺塌陷”。但它凭什么这么判断?是看到肺的形状不对,还是看到某个阴影?它说不出来。
人类医生好歹能说“这里密度异常,所以我觉得……”AI不会。
现在研究者正在想办法让AI更有“解释性”。比如让它生成一张热力图,标出它重点关注了图像的哪个区域——如果它盯着右肺做出了诊断,那至少我们知道它没跑偏。
但说到底,人类自己也未必擅长解释。你是怎么认出这是一个咖啡杯的?因为有个把手?因为能装水?好像也说不清楚。
可解释性很难,但很重要。 如果一个AI系统要部署到现实世界,团队必须能说清楚“它为什么足够好”。
这一部分让我印象最深。
微软一个研究小组发现:当AI从互联网文本中学习时,它会学到刻板印象。
他们做了一个测试:让AI做类比推理。
· “男人对女人,就像父亲对谁?” → AI答:母亲(合理)
· “男人对国王,就像女人对谁?” → AI答:女王(也算合理)
但下一个问题出了问题:
· “男人对程序员,就像女人对谁?” → AI答:家庭主妇
但公平的答案应该是“女人对程序员”,或者“男人对家庭主夫”。但互联网上的文本里,“程序员”更多和“男人”一起出现,“家庭主妇”更多和“女人”一起出现。AI只是忠实地反映了这些数据。
偏见不是AI的错,但AI会放大它。
如果这种有偏见的AI被用在:
· 招聘系统:可能自动筛掉女性程序员
· 人脸识别:对深肤色人群准确率更低(因为训练数据里浅肤色更多)
· 贷款审批:可能对少数族裔开出更高利率
· 搜索引擎:一个8岁女孩搜“CEO”,看到的全是男性——她还会觉得这个位置和自己有关吗?
这些不是假设,是已经发生过的事。
这叫对抗性攻击。
什么意思?给ai看几张图:
· 第一张是鸟,AI识别出“蜂鸟”
· 稍微改几个像素(人眼看不出变化),AI突然说这是“锤子”
为什么会这样?因为AI“看”世界的方式和人完全不同。它对像素的敏感度是人类无法理解的——改几个数字,在它眼里就是完全不同的东西。
更吓人的是,这种攻击不只能发生在数字世界。
· 卡耐基梅隆大学的研究者设计了一副特殊眼镜,戴上它,AI人脸识别系统会把这个人认成某个女演员
· 另一个研究团队发现,在停车标志上贴几个贴纸,AI就会完全忽略它——但人眼看起来还是停车标志
最后一个例子:谷歌的研究者设计了一个贴片,把它放在香蕉图片上,AI就坚定地认为这是一台烤面包机。而且这个贴片的图片就在论文里,谁都可以下载打印,贴在任何地方去误导AI系统。
目前还没有完美防御方案。好消息是,不是所有AI都需要担心这个——你工厂里的咖啡杯质检系统,没人会故意去骗它。但在垃圾邮件过滤、反欺诈这些领域,对抗性攻击是真实存在的威胁。
教授给了几个方向:
1. 技术手段:研究人员发现,偏见和某些数字参数有关,把它们归零能显著减少偏见
2. 更包容的数据:人脸识别系统要包含各种种族、性别的人
3. 透明度和审计:定期检查系统对不同群体的表现是否一致
4. 多元化的团队:不同背景的人更容易发现偏见问题
最后教授说了一句让我记下来的话:
减少AI的偏见,比减少人类自身的偏见要容易。 因为你可以直接修改系统,而人不会。
但前提是——我们得先意识到这个问题。
学习总结
1. 对AI要“金发姑娘原则”:别太乐观,别太悲观,看清现实
2. AI解释不了自己:黑盒模型好用,但难信任,可解释性正在被研究
3. AI会学会人类的偏见:从互联网文本里,它学会了“程序员=男性”这种刻板印象
4. 偏见会在招聘、贷款、搜索中被放大,影响真实的人
5. 减少偏见有方法:更好的数据、更透明的审计、更多元的团队
6. AI可以被愚弄:改几个像素、戴副眼镜、贴个贴纸,就能让它认错
7. 不是所有AI都需要担心攻击,但在安全领域,这是持久战
这周的内容让我想了很多。
技术本身没有善恶,但它会放大我们社会里已有的东西——好的放大,坏的也放大。
学AI的意义,可能不只是学会怎么用它,更是学会怎么让它变得更好。