AI沒有偏見？它們從人類的語言中學會了性別和種族歧視

新消費

2017

04/14

15:33

量子位

評論

AI沒有偏見？它們從人類的語言中學會了性別和種族歧視

在性別和種族問題上，人工智能能夠消除人類的偏見嗎？

《科學》上發(fā)表的一項最新研究給我們潑了一盆冷水。普林斯頓大學信息技術政策中心計算機科學家Arvind Narayanan和他的同事們發(fā)現(xiàn)，機器學習算法會輕易模仿其訓練數(shù)據(jù)集中隱含的偏見。

他們從網(wǎng)上用爬蟲收集了220萬詞的英語文本，用來訓練一個機器學習系統(tǒng)。結果，系統(tǒng)也會展示出了與這些文本相同的偏見。

在較為中性的例子中，人工智能系統(tǒng)更有可能將“花朵”和“音樂”與“愉快”聯(lián)系起來，而“昆蟲”或“武器”等不太愉快的詞不太可能建立這種聯(lián)系。但人工智能也也更有可能將歐洲裔美國人的名字與“快樂”聯(lián)系起來，非洲裔美國人的概率較低。同樣地，這種算法往往會將“婦女”和“女孩”與藝術關聯(lián)，而不會與數(shù)學關聯(lián)。

“在機器學習執(zhí)行的所有感知任務中，都應該擔心它是否會體現(xiàn)人類的偏見。”Narayanan說，“這可能會進一步創(chuàng)造一種反饋回路，延續(xù)這些偏見。”

為了展示自然語言學習所能引發(fā)的偏見，Narayanan和他的同事根據(jù)心理學家揭示人類偏見時使用的內隱聯(lián)想測驗（IAT），創(chuàng)造了新的統(tǒng)計學測驗。他們的成果發(fā)表在2017年4月14日出版的《科學》雜志上，這也是首份展示“文字嵌入”（word embedding）中體現(xiàn)的人類偏見的科研成果。

所謂“文字嵌入”，其實是一種普遍應用于機器學習和自然語言處理過程的統(tǒng)計建模技術。文字嵌入需要了解一個人的語言在空間上的不同點，并通過重現(xiàn)幾何關系的方式來分析這些點之間的語義關系。

猶他大學計算機科學家Suresh Venkatasubramanian表示，人工智能從訓練數(shù)據(jù)集中學會了偏見或許算不上令人震驚的發(fā)現(xiàn)，但這項研究駁斥了之前的一個論調：人工智能天生比人類更加客觀。

由于人工智能在硅谷和世界各地的科技巨頭中十分流行，所以這項結果意義重大。

要理解潛在的影響，可能需要閱讀一下普利策獎獲獎文章《機器偏見》（Machine Bias），這個系列的文章展示了原本用來預測潛在犯罪分子的電腦程序是如何對黑形成偏見的。有鑒于此，一些研究人員考慮在部署機器學習算法的過程中，識別并減輕人類偏見所產生的負面影響。

“訓練流程和訓練數(shù)據(jù)的好壞決定了最終的算法。”Venkatasubramanian說，“它們不會生來就自動獲得客觀立場。”

哈弗福特學院計算機科學家Sorelle Friedler表示，這項新的研究邁出了重要的一步，揭示出各種機器學習中可能存在的語言偏見。作為機器學習公平、負責、透明小組的組織者，F(xiàn)riedler指出，過去的研究主要調查了已經(jīng)使用的特定機器學習算法的偏見。

“我很喜歡這項研究，因為他們沒有試圖調查單一的‘活躍’系統(tǒng)，而是分析了很多活躍系統(tǒng)的一塊基石。”他說。

Narayanan和他在普林斯頓大學及英國巴斯大學的同事首先采用了文字嵌入聯(lián)想測驗（WEAT），以此復制以往的心理學研究中的種族和性別歧視例子。但他們還開發(fā)了文字嵌入事實聯(lián)想測驗（WEFAT），不僅僅局限于文字聯(lián)想。第二項測試顯示，機器學習語言聯(lián)想的統(tǒng)計學強度，與女性2015年在50種不同工作中占據(jù)的比例相關性極強。

就連研究人員都對語言使用和美國勞工部統(tǒng)計數(shù)據(jù)之間的強相關性感到意外。“完全根據(jù)語言使用來看，考慮職業(yè)與性別詞匯的使用關系，我們發(fā)現(xiàn)女性在任何一個職位上的相關性都達到90%。”Narayanan說。

針對這項新研究開發(fā)的統(tǒng)計測試，不僅暴露了機器學習領域的潛在偏見問題，還可以成為一項有用的工具，用來分析特定社會偏見在文字發(fā)展史上的演變過程。正如研究人員證明的那樣，這些測試也有助于心理學實驗室測試所揭露的偏見與現(xiàn)實世界的實際影響之間的相關性。（Narayanan將此歸功于他的同事多樣化的學術背景，該團隊包括機器學習專家Aylin Caliskan和認知科學家Joanna Bryson。）

使用機器學習技術——尤其是深度學習技術——的科技巨頭和創(chuàng)業(yè)公司，都應該盡快克服其人工智能系統(tǒng)的潛在偏見。Friedler解釋道，人們現(xiàn)在逐步意識到這個問題，并且開始展開針對性的討論，但尚未就如何處理偏見達成系統(tǒng)性的一致意見。

可以考慮從數(shù)據(jù)集中去掉偏見因素，但可能因此失去一些有用的語言和文化意義。人們需要作出艱難的道德抉擇，尋找具體的偏見和應對策略，避免這些偏見對日漸強大、越發(fā)普及的人工智能系統(tǒng)產生負面影響。

“我們需要判斷哪些偏見在語言上有用，哪些會產生社會問題。”Friedler說，“如果我們認為存在社會問題，就應該有意識地移除這些信息。”

來源：量子位

THE END

廣告、內容合作請點擊這里尋求合作

免責聲明：本文系轉載，版權歸原作者所有；旨在傳遞信息，不代表砍柴網(wǎng)的觀點和立場。