AI时代的新型歧视,数字时代的年龄歧视是什么

AI时代的新型歧视,数字时代的年龄歧视是什么

看起来像是在返回。文章措辞礼貌,避免了歧视性语言,表面上也没有伤害他人的意图。然而,如果这种“良好印象”的背后,潜藏着长期积累的社会偏见呢?

韩国科学技术院(KAIST)的研究团队发表的研究正是揭示了这一问题。研究的对象是OpenAI的生成AI模型GPT-4o。研究团队让AI描述从10岁到90岁,每10岁一个年龄段的人的性格和特征,并分析这些描述中包含的年龄印象。

研究结果显示,AI并没有表现出明显的歧视,也没有使用侮辱老年人的语言。相反,AI倾向于用“亲切”“值得信赖”“有同情心”“有智慧”等积极的词汇来描绘老年人。

问题在于这种肯定的方式。

根据研究,60岁以上的人物在“温暖”方面得到了高度评价,而在“能力”“专业性”“效率”“主动性”“自我主张”等方面的表现则相对较弱。也就是说,AI并不是在否定老年人,而是更容易将其描绘为“善良但不太能干的人”。

这是现代AI偏见问题中一个非常重要的论点。因为歧视并不总是以攻击性的语言出现。相反,那些在社会中长期存在的偏见往往以“善意”或“赞美”的形式表现出来。

例如,“老年人温和且关心他人”这样的表达,乍听之下似乎是好意。然而,如果这同时与“对新事物不敏感”“判断力下降”“更适合被支持而非领导”等印象联系在一起,那么这就形成了年龄角色的固化。

如果AI反复生成这样的形象,用户可能会在无意识中接受这种看法。即使是老年人自己在与AI对话时,也可能会感到“自己不再是挑战者”“不是掌握数字技术的主体”。AI的语言不仅仅是文字,还可能影响到人类的自我认知和社会认知。


研究方法——向AI提出“中立性问题”

这项研究的有趣之处在于,研究团队并没有提出明显引导偏见的问题。

使用的提示是中立的,要求AI描述特定年龄人物的性格。目标年龄为10岁、20岁、30岁、40岁、50岁、60岁、70岁、80岁、90岁。研究团队从GPT-4o中收集了总计900个文本样本。

然后,基于社会心理学中使用的“刻板印象内容模型”对文本进行了分析。该模型从两个主要轴线来理解人们如何认知社会群体。一个是“温暖”,涉及亲切、信任、同情、合作等。另一个是“能力”,涉及能干、专业性、效率、主动性、自我主张等。

从这两个轴线来看,偏见的结构显得更加细致。有的群体被视为“冷漠但能干”,有的则被视为“温暖但无能”。针对老年人的刻板印象往往接近后者。以“善良”“经验丰富”“温和”等积极词汇为代价,“竞争力”“执行力”“适应新事物的能力”被低估。

此次研究中显示的GPT-4o的倾向也与此相符。在60岁以上的描述中,涉及温暖的表达尤为突出,而涉及能力和自我主张的表达则相对较弱。尤其是在70岁以上的描述中,描绘容易趋于同质化。也就是说,随着年龄的增长,更容易被总结为“老年人的特质”而非“个体差异”。


“善意偏见”危险的原因

这项研究揭示的问题并不是AI在贬低老年人。相反,AI将老年人描绘为“好人”。正因为如此,它才危险。

人们对明显的歧视更容易警惕。如果出现“老年人无用”这样的露骨表达,许多用户会意识到问题。开发者也容易通过过滤器和安全措施检测到。

然而,“老年人温暖、沉稳,是支撑周围的人”这样的表达如何呢?这看似没有问题的句子,如果同一个AI对年轻人或中年人使用更多“创新”“雄心勃勃”“有领导力”“擅长解决问题”等词汇,那么就会产生明显的差异。

歧视不仅存在于贬低某人的词语中,也存在于将某人限制在特定角色中的词语中。

如果总是将老年人描绘为“支持者”“守护者”“善良的人”,就剥夺了他们被想象为“挑战者”“决策者”“变革者”“技术掌握者”的机会。随着这种情况的积累,可能会在就业、教育、医疗、行政服务、数字支持等各个场合导致年龄差异的对待。

例如,当企业使用AI进行人力资源评估或撰写招聘文案时,如果模型暗示“年轻人更有主动性和成长性”“年长者稳定但不善于变化”,这可能会影响表达和判断。在护理和医疗场景中,如果过度将老年人描绘为需要保护的对象,而非自主决策者,可能会忽视他们的选择权。


什么是数字年龄歧视

在这项研究中,一个重要的关键词是“数字年龄歧视”。这指的是在数字技术和AI系统的设计、数据、运营、使用环境中,基于年龄的偏见渗透,妨碍老年人的参与和机会。

数字年龄歧视不仅仅是“老年人难以使用智能手机”的问题。问题更加结构化。AI的学习数据中没有充分包含老年人的多样性。开发团队中缺乏老年世代的视角。服务设计以年轻人的使用行为为标准。用户调查和测试中排除了老年人。这些因素叠加,使得技术本身再生产了年龄歧视。

而且,AI的输出以非常自然的语言呈现。相比搜索引擎的结果列表或广告文案,对话型AI的回答更像是“针对自己的建议”。因此,AI产生的刻板印象更容易静悄悄地进入用户的意识。

例如,某位老年用户向AI咨询“想挑战新工作”“想创业”“想学习编程”。如果AI出于善意,只给出“在力所能及的范围内”“与周围人商量”“以健康为第一”的谨慎建议,而对年轻用户则建议“积极挑战”“制作作品集”“调查市场”,那么这里就存在不易察觉的歧视。

建议的语气不同。期望值不同。未来的描绘方式不同。这就是数字时代的年龄偏见。


SNS的反应——“AI果然是社会的镜子”还是“仍需验证”

在SNS上对这一话题的反应,公开搜索范围内,并不是爆炸性的传播,而是在关注AI伦理、研究者、科技新闻的群体中静静受到关注。原始文章页面上的分享数量在公开后不多,评论区的反应也不多。

然而,SNS上对同一主题的反应分为几个方向。

第一种是“AI是社会偏见的镜子”的反应。生成AI学习了互联网上的大量文本。如果其中的年龄观、职业观、家庭观、媒体表现存在偏见,AI的输出也会偏向。因此,AI将老年人描绘为“温暖但低能力”不仅是AI的问题,也是人类社会一直以来的描绘结果。

第二种是“积极的词语也可能构成歧视”的反应。在SNS上,关于性别和种族偏见的讨论已经很多。而年龄偏见往往被忽视。将老年人称为“可爱”“温和”“治愈”的表达,由于没有恶意,不易受到批评。然而,如果这导致轻视他们的能力和决策力的文化,那么仍然是个问题。

第三种是“研究对象仅限于一个模型和一个时间点,因此在普遍化时需要谨慎”的反应。此次研究针对的是GPT-4o,模型不断更新。此外,提示的写法、语言、文化圈也会影响输出。因此,仅凭这一结果断定“所有生成AI都持有同样的偏见”为时尚早。

第四种是“因此需要评估方法”的实务性反应。既然AI已融入社会,就不能仅以正确率和速度来衡量模型性能,而是需要持续检查其如何描绘各群体、分配何种角色、是否限制了谁的可能性。在SNS上的AI开发者和政策相关者的讨论中,如何将这种偏见评估纳入产品开发成为重要论点。


为什么年龄偏见容易被忽视

在AI偏见的讨论中,性别、种族、国籍、宗教等一直是主要议题。这些议题的重要性不言而喻。然而,年龄往往被意外地推后。

其中一个原因是年龄是每个人都会变化的属性。与种族或出生地不同,人人都会变老。因此,年龄歧视常被视为“自然的代际差异”或“人生阶段的不同”而非“对特定人的歧视”。

然而,实际上基于年龄的偏见会产生严重影响。招聘中“年轻人更灵活”的看法。医疗中“因为年纪大所以没办法”的判断。数字服务中“老年人可能不会使用”的假设。教育中“现在学也晚了”的说法。这些判断基于年龄类别而非个人能力。

随着生成AI的普及,这一问题进入了新阶段。AI进入个人写作、招聘、广告制作、图像生成、客户支持等各个场景。如果AI持有关于年龄的固定观念,这种偏见将以大量文本和图像的形式再分配到社会中。

而且,这种偏见因为“AI说的”而更容易被信任。即使对人类的偏见可以反驳,AI的输出看起来是统计性的和中立的。这种中立性使偏见更难被察觉。


不将老年人“简化为一幅画”

此次研究中特别值得注意的是,70岁以上的描绘容易趋于均质化的指摘。这与社会将老年人视为一个整体群体的倾向相吻合。

然而,70多岁、80多岁、90多岁的人显然不是一成不变的。有些人继续工作。有些人学习新技术。有些人创业。有些人领导社区活动。有些人接受护理,也有些人支持他人。政治观点、兴趣、经济状况、健康状态、数字技能都大不相同。

尽管如此,如果AI将“老年人的特质”平均化地描绘,多样的现实就会消失。这在图像生成AI中也可能发生问题。输入“80岁的人物”,可能只出现白发、皱纹、拐杖、温和的表情、护理的情境。如果没有充分表现出运动的人、研究的人、经营公司的人、享受游戏的人、恋爱的人、进行政治运动的人,老年人的形象就会变得贫乏。

在文本生成AI中也是如此。AI将老年人描绘为“经验丰富且温和”本身并没有错。问题在于它只描绘这些。老年人也有野心、愤怒、竞争心、学习欲望,也有失败和成长。如果不能表现出这种复杂性,AI就不是在理解人类,而只是贴上了平均化的标签。


对开发者的要求

应对这一问题的措施不仅仅是“禁止歧视性语言”。像这样的偏见并不以歧视性语言出现。相反,它潜藏在礼貌和积极的词语中。

因此,AI开发者需要进行更细致的评估。对于某个年龄层,AI使用了哪些形容词。分配了哪些角色。假设了哪些能力。建议的语气是否因年龄而异。是否过度评估了风险。是否缩小了挑战的机会。这些点需要被纳入模型评估的一部分。

此外,开发过程中需要有多样化世代的参与。仅由年轻工程师设计老年人服务,即使出于善意也可能产生遗漏。需要将老年人不仅视为“用户”,还视为“共同设计者”“评估者”“决策者”。

考虑AI的公平性时,不仅要问“为谁而作”,还要问“与谁一起作”。


用户也能做的事情

当然,不应将责任仅仅推给用户。然而,使用AI的一方也有可以做的事情。

首先,不要过于将AI的回答视为“平均的看法”。当AI解释“60多岁的人是这样”“80多岁的人有这样的倾向”时,这并不是在解释个人。这只是看似合理的词语组合。

其次,在以年龄为条件提问时,要求明确个人差异是有效的。只需加上“不要仅凭年龄判断,还要考虑健康状态、经验、意愿、环境的不同”,输出可能会有所不同。

此外,如果AI对老年人给出过度保护性的建议,可以尝试再问“请提供与30多岁的人相同水平的挑战选项”。AI的输出不是固定的真理,而是会因提问方式而改变。因此,用户需要有质疑AI语言偏见的态度,而不是直接接受。


结论——AI的偏见也是人类社会的偏见

此次研究揭示的不仅仅是GPT-4o这一模型的缺陷。更大的问题在于我们社会如何看待老年人,以及这种看法如何传递给AI。

AI并不是从空白中创造偏见。很多情况下,AI学习了人类社会中的语言、图像、故事、制度、期望,并将其重新构建后返回。因此