你好,这是我的第16篇newsletter,也是第2篇「信息食谱」。
新学期也在尽量努力且艰难地更新(真诚)。
本周信息食谱
💡 「Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings」
最近偶然看到这篇经典论文,感觉确实写的很不错。即使不看中间模型,只看文字部分也会觉得有很强的可读性,其中核心的问题是:
简单来说,在做语义识别的时候,假如我们想知道「如果man对应的词语是woman,那么king对应的是什么」即「man is to king as woman is to X」,一种思路是:每一个词对应一个空间向量,如果X和king之间的距离与man和woman之间的距离很相近,那就可以作为匹配结果。这里X可以是queen,所以会有下面的结果(匹配过程大致就是求和 king - (man-woman)最接近的向量这样):

但king本身就是一个含有性别信息的词,如果我们把它换成一个本应是中性的词例如Computer Programmer,最终出来的匹配结果却存在明显的 gender bias:

继续运用这种匹配结果将会进一步加深性别刻板印象,造成更多的不公平现象。例如:对于同为 computer programmer 的男女两人的主页同样被放到网上,但因为man和computer programmer “在语义上更匹配”,就会被排在前面,使得女性computer programmer更难被看到,进而更难让别人认同她的成就。
However, word embeddings also rank terms related to computer science closer to male names than female names (e.g.,the embeddings give John:computer programmer :: Mary:homemaker). The consequence is that, between two pages that differ only in the names Mary and John, the word embedding would influence the search engine to rank John’s web page higher than Mary. In this hypothetical example, the usage of word embedding makes it even harder for women to be recognized as computer scientists and would contribute to widening the existing gender gap in computer science.
因此这篇文章探索了一种「将性别中性词“拉回中间”,但不影响本就包含性别信息的词语」的方法,来削减这种词语匹配结果带来的性别刻板印象。当然,模型是由现实数据训练出来的,所以可能在日常的表达与创作中,我们也更应该注意自己是否无意间固化了性别刻板印象,这才根本的改变之道。
此外,这篇文章中也提到了一些有意思的语言现象:
1. 对于一些职业来说,正因为人们倾向于认为它「更接近某一种性别」,使用的时候反而会特意加上另一个性别的定语。例如说男性护士的时候会说 male nurse,这种情况下,如果使用最简单粗暴的 first order 模型,只看词语同时出现的频率,可能会得出 male 和 nurse 更相关的结论。
2. 文章结尾还提到,本文仅探索了英语中的bias现象,对于其他语言的适用性还可以再进一步探索,尤其是罗曼语族语言中的很多职业名词本身就有阴阳性之分,是否会造成性别刻板印象,也是一个值得讨论的话题。
While we focus on English word embeddings, it is also an interesting direction to consider how the approach and findings here would apply to other languages, especially languages with grammatical gender where the definitions of most nouns carry a gender marker.
第2点我确实觉得很有意思,有时候也会想,单词语法上的阴阳性会影响人们对这个单词含义的认知吗?但综合来看这些都是非常复杂的问题,可能需要追溯语法的起源?还是以后有空再慢慢探索吧。
💡 声东击西 #228 这位让力量、愤怒和自我表达被接受的女性
虽然之前几乎从来没有了解过网球比赛,但还是被这个播客中描述的伟大的网球运动员 Serena Williams (小威)吸引,被她的精神感染,被她的强大震撼。当然,这一期也并不只局限于聊网球聊运动,也鼓舞着每一个人都试着不被定义地追求更多可能性、实现属于自己的人生价值。更近一步地,还有对运动员的经历背后折射的「性别议题」和「种族议题」的探讨。
💡 伊丽莎白女王溘然长逝,一个时代就此落幕 | 经济学人社论
「The death of Elizabeth II marks the end of an era 」属于是事情刚发生原文就发出来了(doge),晚上就看到了翻译。经济学人的语言一如即往地优秀,翻译得也很棒。其中最击中我的还是第一句:It deprives Britain of a thread that wove the nation together, and linked it to its past. 这是对女王的极高评价,非常贴切地庄重又有力,同时又透露出一丝这个国家未来的隐忧。非常值得一看!
P.S. 因为对第一句印象非常深刻,以至于注意到后面一处照应的地方翻译得好像不是很对: With her death a final thread that tethered Britain to an era of greatness has been 被翻译成「女王的逝去成为英国伟大时代终结的最后一根稻草」感觉意译成「稻草」不是很合适,同时没有体现与前文的呼应。或许翻译为「女王的逝去使得英国维系自身伟大时代的最后一根丝线也被剪断了」类似的意思会更好一点。
是「跳进兔子洞」播客的文字稿。其实听这个播客有一段时间了,「声音特稿」的形式非常新颖,剪辑工作量也是肉眼可见的巨大,感觉通过这期节目见识到了很多「小事」背后形形色色的个体以及更加生动而具体的现实。
闲来无事点开一篇没有听过的文字稿,又是一种很不一样的体验。这种呈现形式在众多公众号推文中应该还是很罕见的,单行的交错短对话也很有「新闻稿」的感觉。这一篇行文整体呈现出一种「从个体到行业,最后又回归个体」的结构,可以看到幽默的对话,也有对行业的披露。个人感觉虽然这种偏零散的信息整合难免还是会少一些深度,但不失为一种拓展视野(或者单纯休闲)的阅读体验。

———— 一条分割线 ————

聊天环节
分享一张图:拍月亮拍糊了手抖出了一丝抽象的美感

最近看到一句话「教育的全部目的就是把镜子变成窗户」:
在镜子面前,我们看到的只有自己,不论你是沉醉于自我欣赏,还是对着镜子里的那个人自我厌恶,你的世界都是狭小的、自我确认式的。而在窗户面前,我们看到的是外面的世界,那是一种开放的体验。而教育的目的,的确就是塑造更开放的心态,带来更多元的体验。
希望我们都能为自己的房间多开几个窗户~
感谢你的阅读,I will see you soon~