UMRAM’dan yeni bir makale: Gender Bias in Legal Corpora and Debiasing It

Çoğunlukla doğal dil işleme (NLP) ve makine öğrenimine dayanan hesaplama hukuku, teknolojik gelişmeler, hukuk metinlerinin bolluğu ve hukukçulardan teknolojiye yönelik artan talep nedeniyle son zamanlarda önemli bir ilgi kazanmıştır. Hesaplamalı hukuk, makine öğrenimi, yapay zeka (AI) ve doğal dil işleme (NLP) toplulukları içinde gelişmekte olan bir alandır. Aynı zamanda, sosyal önyargıların araştırılması, amacın temeldeki algoritmaların adaletini geliştirmek olduğu genel NLP ve AI çalışmaları için de hayati önem taşımaktadır.

Hukuk belki de hayata en çok dokunan alanlardan biridir. Bu nedenle, adalet ve önyargısız algoritma geliştirme, hesaplama hukuku ve hukukla ilgili uygulamalar hakkında konuştuğumuzda daha da kritiktir.

KoçLab, Cambridge University Press’in Natural Language Engineering dergisindeki “Gender Bias in Legal Corpora and Debiasing It” başlıklı makalesinde, yasal alan için sözcük yerleştirmelerinde mevcut olan cinsiyet, ırk ve diğer toplumsal önyargı konularını tespit etme ve ortadan kaldırmaya yönelik ilk çalışmayı yayınladı. .

Bu çalışma, önemli önyargı konularını, hukukun toplum için öneminin önyargıyı inceleme ihtiyacını ikiye katladığı hesaplamalı hukuk camiasının dikkatine sunmaktadır. Makale, önyargı ölçüm teknikleri ve sapma algoritmaları hakkında kapsamlı bir analiz sunarken, yasaya özel bir önyargı ölçüm tekniği önermektedir. Çeşitli ülke ve kuruluşlardan mevzuat ve düzenlemelerden derlenen geniş bir hukuk külliyatı koleksiyonu da tanıtıldı.

Makaleye [buradan] ulaşabilirsiniz.

Abstract:

Word embeddings have become important building blocks that are used profoundly in natural language processing (NLP). Despite their several advantages, word embeddings can unintentionally accommodate some gender- and ethnicity-based biases that are present within the corpora they are trained on. Therefore, ethical concerns have been raised since word embeddings are extensively used in several high-level algorithms. Studying such biases and debiasing them have recently become an important research endeavour. Various studies have been conducted to measure the extent of bias that word embeddings capture and to eradicate them. Concurrently, as another sub-field that has started to gain traction recently, the applications of NLP in the field of law have started to increase and develop rapidly. As law has a direct and utmost effect on people’s lives, the issues of bias for NLP applications in legal domain are certainly important. However, to the best of our knowledge, bias issues have not yet been studied in the context of legal corpora. In this paper, we approach the gender bias problem from the scope of legal text processing domain. Word embedding models which are trained on corpora composed by legal documents and legislation from different countries have been utilized to measure and eliminate gender bias in legal documents. Several methods have been employed to reveal the degree of gender bias and observe its variations over countries. Moreover, a debiasing method has been used to neutralize unwanted bias. The preservation of semantic coherence of the debiased vector space has also been demonstrated by using high level tasks. Finally, overall results and their implications have been discussed in the scope of NLP in legal domain.