Що таке алгоритмічні зміщення і як їх виявити?

Алгоритмічні зміщення можуть впливати на різні аспекти нашого життя, від отримання рекомендацій щодо вмісту в Інтернеті до пошуку роботи та прийняття фінансових рішень.

Упередженість закладена в людській природі. Різні люди мають різну стать, расу, виховання, освіту, культуру, вірування, досвід тощо.

Таким чином, їхні погляди, думки, симпатії та антипатії та переваги відрізняються один від одного. Вони можуть розвинути певні упередження щодо певних категорій або проти них.

Машини нічим не відрізняються. Вони також можуть по-різному бачити людей, речі та події через упередження, внесені в їхні алгоритми. Через ці упередження системи штучного інтелекту та машинного навчання можуть давати несправедливі результати, заважаючи людям багатьма способами.

У цій статті я обговорю, що таке алгоритмічні зміщення, їх типи та як їх виявити та зменшити, щоб підвищити справедливість результатів.

Давайте почнемо!

Що таке алгоритмічні зміщення?

Алгоритмічне упередження — це тенденція алгоритмів ML та AI відображати людські упередження та генерувати несправедливі результати. Упередження можуть бути засновані на статі, віці, расі, релігії, етнічній приналежності, культурі тощо.

У контексті штучного інтелекту та машинного навчання алгоритмічні зміщення — це систематичні, повторювані помилки, які вводяться в систему та призводять до несправедливих результатів.

Упередження в алгоритмах можуть виникати через багато причин, як-от рішення, пов’язані з тим, як дані збираються, вибираються, кодуються чи використовуються для навчання алгоритму, передбачуваним використанням, дизайном алгоритму тощо.

Приклад: Ви можете спостерігати алгоритмічні зміщення в результатах пошукової системи, що призводить до порушення конфіденційності, соціальних упереджень тощо.

Є багато випадків алгоритмічних упереджень у таких сферах, як результати виборів, поширення ненависті в Інтернеті, охорона здоров’я, кримінальне правосуддя, вербування тощо. Це посилює існуючі упередження щодо статі, раси, економіки та суспільства.

Типи алгоритмічних зміщень

#1. Зміщення даних

Зміщення даних виникає, коли дані, необхідні для навчання моделі штучного інтелекту, неправильно відображають реальні сценарії чи населення. Це може призвести до незбалансованих або спотворених наборів даних.

Джерело: TELUS International

Приклад. Припустімо, що програмне забезпечення для розпізнавання облич навчається переважно на білому населенні. Таким чином, він може працювати погано, коли йому доручено розпізнавати людей із темнішим відтінком шкіри, впливаючи на них.

#2. Зсув вимірювання

Це зміщення може виникнути через помилку в процесі вимірювання або збору даних.

Приклад: якщо ви навчите діагностичний алгоритм охорони здоров’я виявляти хворобу на основі деяких показників, як-от попередні візити до лікаря, це може затьмарити судження та спричинити упередженість, не помітивши фактичних симптомів.

#3. Упередженість моделі

Зміщення моделі виникають під час розробки алгоритму або моделі ШІ.

Приклад: припустімо, що система штучного інтелекту має алгоритм, розроблений для максимізації прибутку незалежно від того, яким чином; в кінцевому підсумку це може призвести до надання пріоритету фінансовим прибуткам за рахунок ділової етики, безпеки, справедливості тощо.

#4. Упередженість оцінки

Упередженість оцінки може виникнути, коли фактори або критерії для оцінки продуктивності системи ШІ є упередженими.

Джерело: Очистити огляд

Приклад: якщо система оцінки продуктивності ШІ використовує стандартні тести, які віддають перевагу певній категорії працівників компанії, це може сприяти нерівності.

#5. Упередженість звітності

Упередженість у звітах може виникнути, коли в навчальному наборі даних бракує точного відображення реальності в його частоті подій.

Приклад: якщо інструмент захисту штучного інтелекту погано працює в певній категорії, він може позначити всю категорію як підозрілу.

Це означає, що набір даних, на якому була навчена система, позначав кожен історичний інцидент, пов’язаний із цією категорією, як небезпечний через більшу частоту інцидентів.

#6. Упередженість відбору

Зміщення відбору виникає, коли навчальні дані вибрано без належної рандомізації або погано представляють загальну сукупність.

Приклад: якщо інструмент розпізнавання обличчя навчено на обмежених даних, він може почати демонструвати певну дискримінацію щодо даних, з якими він стикається рідше, наприклад ідентифікувати кольорових жінок у політиці, ніж чоловіків, і людей зі світлою шкірою в політиці.

#7. Неявне упередження

Неявне упередження виникає, коли алгоритм штучного інтелекту робить припущення на основі певного особистого досвіду, який може не застосовуватися до більш широких категорій або людей явно.

Приклад: якщо фахівець із обробки даних, який розробляє алгоритм штучного інтелекту, особисто вважає, що жінкам подобається переважно рожевий колір, а не синій або чорний, система може рекомендувати продукти відповідно, що стосується не кожної жінки. Багато люблять синій або чорний.

#8. Групове упередження атрибуції

Таке упередження може статися, коли розробники алгоритмів застосовують речі, призначені для певних осіб, до повної групи, незалежно від того, чи є ці особи частиною групи чи ні. Упередженість групового віднесення є поширеною в інструментах найму та прийому.

Приклад: інструмент прийому може надавати перевагу кандидатам із певної школи, дискримінуючи інших студентів, які не належать до цієї школи.

#9. Історична упередженість

Збір історичних наборів даних є важливим під час збору наборів даних для навчання алгоритму ML. Але якщо ви не звернете увагу, у ваших алгоритмах може виникнути зміщення через зміщення, присутні у ваших історичних даних.

Приклад: якщо ви навчаєте модель штучного інтелекту з історичними даними за 10 років, щоб складати короткий список кандидатів на технічні посади, вона може віддавати перевагу кандидатам-чоловікам, якщо в навчальних даних більше чоловіків, ніж жінок.

#10. Label Bias

Під час навчання алгоритмів ML вам може знадобитися позначити багато даних, щоб зробити їх корисними. Однак процес маркування даних може сильно відрізнятися, створюючи невідповідності та вносячи упередження в систему ШІ.

Приклад. Припустімо, ви тренуєте алгоритм ШІ, позначаючи котів на зображеннях за допомогою коробок. Якщо ви не звернете увагу, алгоритм може не розпізнати кота на зображенні, якщо його морда не видно, але зможе ідентифікувати ті, на яких зображені котячі морди.

Це означає, що алгоритм упереджено ідентифікує зображення з котами, які дивляться спереду. Він не може ідентифікувати кота, якщо зображення зроблено під іншим кутом, коли видно тіло, але не обличчя.

#11. Упередження виключення

Джерело: ResearchGate

Упередження виключення виникає, коли конкретну особу, групу людей або категорію ненавмисно чи навмисно виключають під час збору даних, якщо вони вважаються нерелевантними. Здебільшого це відбувається на етапі підготовки даних життєвого циклу машинного навчання під час очищення даних і підготовки їх до використання.

Приклад: припустімо, що система прогнозування на основі штучного інтелекту має визначити популярність певного продукту протягом зимового сезону на основі рівня його купівлі. Отже, якщо фахівець із обробки даних помітить деякі покупки в жовтні та видалить ці записи, вважаючи їх помилковими, і взявши стандартну тривалість із листопада по січень. Але є місця, де зима перевищує ці місяці. Таким чином, алгоритм буде зміщений у бік країн, які приймають зиму з листопада по січень.

Як зміщення вводяться в алгоритми?

Дані навчання

Основним джерелом алгоритмічного зміщення є зміщені дані, які використовуються для навчання алгоритмів AI та ML. Якщо самі навчальні дані містять елементи нерівності та упереджень, алгоритм засвоїть ці елементи та збереже упередження.

Дизайн

Розробляючи алгоритм, розробник може свідомо чи несвідомо ввести відображення особистих думок або уподобань у системі ШІ. Отже, система ШІ буде упереджена до певних категорій.

Прийняття рішень

Багато разів дослідники даних і лідери приймають рішення на основі свого особистого досвіду, оточення, переконань тощо. Ці рішення також відображаються в алгоритмах, що викликає упередження.

Відсутність різноманітності

Через відсутність різноманітності в команді розробників члени команди створюють алгоритми, які не представляють всю сукупність. Вони не мають досвіду чи знайомства з іншими культурами, походженням, переконаннями, способами тощо, тому їхні алгоритми можуть бути певним чином упередженими.

Попередня обробка даних

Метод, який використовується для очищення та обробки даних, може внести алгоритмічне зміщення. Крім того, якщо ви не розробите ці методи ретельно для протидії упередженості, це може стати серйозним у моделі ШІ.

Архітектура

Архітектура моделі та тип алгоритму машинного навчання, який ви вибрали, також можуть внести зміщення. Деякі алгоритми викликають упередження більше, ніж інші, разом із тим, як вони розроблені.

Вибір функції

Функції, які ви вибрали для навчання алгоритму ШІ, є однією з причин упередженості. Якщо ви не обираєте функції, беручи до уваги їхній вплив на справедливість результату, може виникнути деяка упередженість, яка надає перевагу деяким категоріям.

Історія та культура

Якщо алгоритм живиться та навчається на даних, отриманих з історії чи певних культур, він може успадкувати упередження, як-от упередження, переконання, норми тощо. Ці упередження можуть вплинути на результати штучного інтелекту, навіть якщо вони несправедливі та неактуальні в сьогоденні.

Дрейф даних

Дані, які ви сьогодні використовуєте для навчання своїх алгоритмів штучного інтелекту, у майбутньому можуть стати неактуальними, некорисними або застарілими. Це може бути пов’язано зі зміною технологій або суспільства. Однак ці набори даних все ще можуть вносити зміщення та перешкоджати продуктивності.

Петлі зворотного зв’язку

Деякі системи штучного інтелекту можуть не тільки спілкуватися з користувачами, але й адаптуватися до їх поведінки. Таким чином, алгоритм може посилити існуюче зміщення. Отже, коли особисті упередження користувачів потрапляють у систему штучного інтелекту, це може створити цикл упередженого зворотного зв’язку.

Як виявити алгоритмічне зміщення?

Визначте, що таке «чесно»

Щоб виявити несправедливі результати або упередження в алгоритмах, вам потрібно визначити, що саме означає «справедливе» для системи ШІ. Для цього ви можете враховувати такі фактори, як стать, вік, раса, сексуальність, регіон, культура тощо.

Визначте показники для обчислення справедливості, як-от рівні можливості, прогнозний паритет, вплив тощо. Після того, як ви визначите «справедливість», вам стане легше виявити, що несправедливо, і вирішити ситуацію.

Дані навчання аудиту

Ретельно проаналізуйте свої навчальні дані, щоб виявити дисбаланси та неузгодженості в представленні різних категорій. Ви повинні вивчити розподіл функцій і перевірити, чи відповідає воно реальним демографічним показникам чи ні.

Для візуалізації даних ви можете створювати гістограми, теплові карти, діаграми розсіювання тощо, щоб підкреслити розбіжності та закономірності, які не можна виявити за допомогою лише статистичного аналізу.

Крім внутрішнього аудиту, ви можете залучати зовнішніх експертів і аудиторів для оцінки упередженості системи.

Вимірювання продуктивності моделі

Щоб виявити упередження, спробуйте виміряти продуктивність вашої моделі ШІ для різних демографічних груп і категорій. Буде корисно, якщо ви розділите навчання на різні групи за расою, статтю тощо. Ви також можете використовувати свої показники справедливості, щоб обчислити відмінності в результатах.

Використовуйте відповідні алгоритми

Вибирайте алгоритми, які сприяють справедливим результатам і можуть усунути упередженість під час навчання моделі ШІ. Алгоритми з урахуванням справедливості спрямовані на запобігання упередженості, забезпечуючи однакові прогнози для різних категорій.

Програмне забезпечення для виявлення зміщень

Для виявлення упереджень можна використовувати спеціалізовані інструменти та бібліотеки з урахуванням справедливості. Ці інструменти пропонують показники справедливості, візуалізації, статистичні тести тощо для виявлення упередженості. Серед популярних — AI Fairness 360 і IBM Fairness 360.

Отримати відгук користувачів

Запитайте користувачів і клієнтів про їхні відгуки про систему ШІ. Заохочуйте їх давати свої чесні відгуки, якщо вони відчули будь-яке несправедливе ставлення чи упередженість у системі ШІ. Ці дані допоможуть вам визначити проблеми, які можуть не бути позначені автоматизованими інструментами та іншими процедурами виявлення.

Як зменшити зміщення в алгоритмах

Диверсифікуйте свою компанію

Створення різноманітності у вашій компанії та команді розробників дозволяє швидше виявляти та усувати упередження. Причина в тому, що упередження можуть швидко помітити користувачі, на яких вони впливають.

Отже, диверсифікуйте свою компанію не лише за демографічним показником, але й за допомогою навичок і досвіду. Включіть людей різної статі, ідентичності, раси, кольору шкіри, економічного становища тощо, а також людей з різним освітнім досвідом і походженням.

Таким чином ви зможете зібрати різноманітні перспективи, досвід, культурні цінності, уподобання та антипатії тощо. Це допоможе вам підвищити справедливість ваших алгоритмів ШІ, зменшивши упередження.

Сприяти прозорості

Будьте прозорими зі своєю командою щодо цілей, алгоритмів, джерел даних і рішень щодо системи ШІ. Це дозволить користувачам зрозуміти, як працює система AI і чому вона генерує певні результати. Ця прозорість сприятиме довірі.

Алгоритми справедливості

Використовуйте алгоритми з урахуванням справедливості під час розробки моделі, щоб забезпечити отримання справедливих результатів для різних категорій. Це стає очевидним, якщо ви створюєте системи ШІ для суворо регульованих галузей, таких як фінанси, охорона здоров’я тощо.

Оцініть продуктивність моделі

Перевірте свої моделі, щоб перевірити продуктивність ШІ в різних групах і підгрупах. Це допоможе вам зрозуміти проблеми, які не видно в сукупних показниках. Ви також можете симулювати різні сценарії, щоб перевірити їх ефективність у цих сценаріях, у тому числі складних.

Дотримуйтеся правил етики

Сформулюйте деякі етичні принципи розробки систем ШІ, поважаючи справедливість, конфіденційність, безпеку та права людини. Ви повинні забезпечити дотримання цих вказівок у вашій організації, щоб справедливість підвищилася в масштабах усієї організації та відображалася на результатах системи ШІ.

Встановіть елементи контролю та відповідальність

Встановіть чіткі обов’язки для кожного в команді, яка працює над проектуванням, розробкою, обслуговуванням і розгортанням системи ШІ. Ви також повинні встановити належні засоби контролю з суворими протоколами та рамками для усунення упереджень, помилок та інших проблем.

Окрім вищезазначеного, ви повинні проводити регулярні перевірки, щоб зменшити упередженість і прагнути до постійного вдосконалення. Крім того, будьте в курсі останніх змін у технологіях, демографії та інших факторах.

Реальні приклади алгоритмічних зміщень

#1. Алгоритм Amazon

Amazon є лідером у галузі електронної комерції. Проте його інструмент найму які використовували штучний інтелект для оцінки претендентів на роботу відповідно до їхньої кваліфікації, показали гендерні упередження. Цю систему ШІ було навчено з використанням резюме попередніх кандидатів на технічні посади.

На жаль, у даних була більша кількість претендентів чоловічої статі, про що дізнався ШІ. Таким чином, він ненавмисно надавав перевагу чоловікам-претендентам на технічних посадах, ніж жінкам, які були недостатньо представлені. У 2017 році Amazon був змушений припинити роботу інструменту, незважаючи на зусилля, спрямовані на зменшення упередженості.

#2. Расистські алгоритми охорони здоров’я США

Алгоритм, який американські лікарні використовували для прогнозування пацієнтів, які потребують додаткової допомоги, був важким упереджене ставлення до білих пацієнтів. Система оцінювала медичні потреби пацієнтів на основі історії їхніх витрат на медичне обслуговування, співвідносячи вартість із медичними потребами.

Алгоритм системи не враховував, як білі та темношкірі пацієнти оплачували свої потреби в охороні здоров’я. Незважаючи на неконтрольовану хворобу, чорношкірі пацієнти платили здебільшого за невідкладну допомогу. Таким чином, вони були віднесені до категорії більш здорових пацієнтів і не мали права на додаткову допомогу порівняно з білими пацієнтами.

#3. Дискримінаційний алгоритм Google

Знайдено онлайн-рекламну систему Google дискримінаційний. Це показало, що високооплачувані посади, як-от генеральні директори, для чоловіків значно більше, ніж для жінок. Навіть якщо 27% генеральних директорів США є жінками, їх представництво в Google набагато менше, близько 11%.

Алгоритм міг би показати результат, вивчаючи поведінку користувачів, наприклад, люди, які переглядають і натискають рекламу високооплачуваних ролей, є чоловіками; алгоритм ШІ показуватиме цю рекламу чоловікам частіше, ніж жінкам.

Висновок

Алгоритмічні зміщення в системах ML і AI можуть призвести до несправедливих результатів. Ці результати можуть вплинути на людей у ​​різних сферах, від охорони здоров’я, кібербезпеки та електронної комерції до виборів, працевлаштування тощо. Це може призвести до дискримінації за ознаками статі, раси, демографії, сексуальної орієнтації та інших аспектів.

Отже, важливо зменшити упередження в алгоритмах AI та ML, щоб сприяти справедливості результатів. Наведена вище інформація допоможе вам виявити упередження та зменшити їх, щоб створити справедливі системи ШІ для користувачів.

Ви також можете прочитати про управління AI.