读书笔记:Beyond Neutrality: Mapping Two Decades of Research on Machine Translation Bias (2005–2024)
Li, Y. & Song, X. (2025). Beyond Neutrality: Mapping Two Decades of Research on Machine Translation Bias (2005–2024). Sage Open, 15(4), 21582440251392700. https://doi.org/10.1177/21582440251392700
前言:
机器翻译系统不可避免地会表现出偏见,而这种偏见是一个复杂现象,其根源在于技术设计与社会结构之间动态的相互作用。机器翻译(MT)是数字智能时代语言技术的重要里程碑,它已经从基于规则和统计的方法发展到基于深度学习的系统。从社会语言学的角度来看,偏见表现为对某些社会群体的不成比例的待遇或默示性的优待。机器翻译的偏见不仅会造成更广泛的社会风险,还会通过延续结构性不平等并加剧根深蒂固的社会偏见 (Kimera 等人, 2024)。
对于机器翻译bias研究的疑虑:
- 较为侧重对技术性能的优化和算法去偏重,以技术为中心
MT bias越来越被视作一个伦理问题,需要跨学科研究。
研究方法:
采用混合的计量方法-定性方法,结合了远程阅读和深度阅读。随着研究的不断发展,计量方法可以有效地用于绘制出版趋势、网络和主题,从而揭示对研究议程的影响(Anderson & Lemken, 2023; Antons et al., 2023; Kunisch et al., 2023)。同时,对关键文件的深度阅读,可以深入探讨方法论的合理性和规范基础,从而补充量化趋势,并提供定性见解。这种双重策略尤其适用于诸如机器翻译偏见这样的主题,而该主题涉及到计算架构和社会文化动态,因此需要既具有广度,又具有深度分析。
研究时段:
对2005年至2024年期间发表的机器翻译偏差研究进行了全面分析。
研究问题:
发现:该领域的发展呈现出明显的三阶段增长趋势:
2005–2015:探索期
研究数量很少,但早期论文影响力较大。
2016–2017:积累期
研究数量开始增长,学界关注度提升。
2018–2024:快速增长期
发文量显著增加,研究成为重要议题。
表明MT偏见逐渐从次要技术问题演变为更独立的研究领域。
研究细节:
会议论文占66.11%,这反映了该领域研究的高度技术性和快速发展性,研究成果通过会议平台迅速传播。The annual meetings of the Association for Computational Linguistics Empirical Methods in Natural Language Processing (EMNLP)
期刊文章占 23.37%,代表性出版物包括Transactions of the Association for Computational Linguistics, IEEE Access, and Lecture Notes in Computer Science.
书籍和编辑材料分别只占1.26%和0.21%,这表明该主题在书籍出版和学术评论中的存在仍然相对有限。
结论:
- 研究成果主要依赖于相关平台,这反映了该领域的强调及时性和创新的特点。
- 尽管技术因素仍然占据主导地位,但社会文化相关的主题,如性别偏见,正在发展成为独立的研究领域。
研究分布:围绕中国、美国和欧洲
研究关键词:computational linguistics, machine translation, neural machine translation, gender bias, deep learning
Bias一般来说研究的都是Gender bias,性别偏见自 2008 年以来一直占据核心地位,而 Google 翻译经常作为主要的测试平台。在2018年取得进步,2020年推出gender-rewriting mechanism.
对机器翻译研究的维度:conceptualization (taxonomy), identification (detection), and intervention (mitigation)概念化(分类)、识别(检测)和干预(缓解)
三个核心挑战
数据失衡:训练和评估数据集在性别、社会群体和语言方面的不成比例代表,这是偏见产生和持续存在的根本原因;
缺乏语境:系统设计和评估中缺乏语境、实用性和社会文化的缺失,这限制了检测和缓解策略的能力;
社交敏感性:难以捕捉文化上相关的规范、价值观和对伤害的认知,这需要跨学科方法和以用户为中心的评估框架。
研究视角:偏见的来源,语言表现,对社群的影响
Friedman and Nissenbaum提出的偏见三元模型
从语言学特征的角度来看,偏见可分为词汇、语法和语用三个维度。
Lexical: professions & identities
Grammatical: subject-object agreement & gender-number concordance
Pragmatic bias: grasp politeness, honorifics, or cultural formality, leading to inappropriate translations in crosscultural communication (M ˇechura, 2022a).” 未能理解礼貌、尊称或文化正式性,从而导致在跨文化交流中产生不当翻译。
现有研究主要集中在三种类型:性别偏见、低资源语言偏见和文化偏见。
gender bias: reinforcing stereotypes & undermining inclusivity
Low-resource language bias:低资源语言偏差是指机器翻译系统由于缺乏针对特定语言的足够训练数据,导致翻译质量低于高资源语言的情况。
cultural bias:忽视用户的sociocultural contexts, 导致inappropriate or distorted translation
偏见的多重特征
大多数现有研究优先采用计算上可行的方法,侧重于系统预测和数据集级别的失衡,同时几乎没有关注用户如何实际感知和体验到危害,从而导致 MT 偏见研究中直接的人类参与不足(Savoldi 等人,2025)。
representational harms:对社会群体和身份的错误或不公正描述,这可能影响公众的认知和价值观判断。
allocational harms:产生于系统输出的偏差,导致特定群体在资源或机会分配方面出现不公平待遇。
这个模型和翻译输出中表现的行为一致:对社会身份的扭曲,对语言资源的不平等获取
现在bias研究通常使用targeted benchmark datasets。BUT!!!!
“While these designs are analytically useful, they often fail to capture the complex linguistic, cultural, and contextual dynamics that shape bias in real-world communication.”虽然这些设计在分析上是有用的,但它们往往未能捕捉到在现实世界交流中塑造偏差的复杂语言、文化和语境动态。
“As such, expanding benchmark construction to include more authentic and user-centered datasets represents a crucial direction for future research.”因此,将基准构建扩展到包含更多真实且以用户为中心的的数据集,代表了未来的研究一个至关重要的方向。
研究空白:跨学科定性研究
- 定性+computational:扩展检车流程范围,超越技术性能,延伸到以人为本的领域
- 使bias detection 可以超越技术参数,促进更全面多维的理解。
研究局限
- detection protocols和real-world application contexts无对应关系;
消除偏见的方法
- 使用多模态语料:整合文本图像语音,提高识别社会身份、文化符号和语境差别的能力,减少输出偏见——需要跨学科合作,使用corpus linguistics, anthropology and sociology来帮助、策划和完善语料。
- Bolukbasi提出hard debiasing method
- GN-GloVe算法进一步将性别信息限制在特定嵌入维度
结论
- 在分类、检测和缓解等方面的努力往往是孤立的,缺乏共同的标准或跨领域的框架。
- 评估标准异质性以及主流方法中,社会文化和伦理因素的缺乏。虽然方法论实验蓬勃发展,但概念整合仍然不足。
- 方法论框架与实际应用环境之间的不足匹配,以及对社会文化因素的考虑仍在局限。