Nowości

Dlaczego czat YouTube dotyczący szachów został oznaczony za szerzenie nienawiści

W czerwcu ubiegłego roku, Antonio Radić, gospodarz kanału szachowego YouTube z ponad milionem subskrybentów, transmitował na żywo wywiad z arcymistrzem Hikaru Nakamurą, kiedy transmisja nagle się skończyła.

Zamiast ożywionej dyskusji o otwarciu szachów, słynnych partiach i kultowych graczach, widzom powiedziano, że wideo Radicia zostało usunięte ze względu na treści „szkodliwe i niebezpieczne”. Radić zobaczył wiadomość, w której stwierdzono, że film, który nie zawierał nic bardziej skandalicznego niż dyskusja na temat obrony króla Indii, naruszył wytyczne dla społeczności YouTube. Pozostawał offline przez 24 godziny.

Dokładnie to, co się stało, nadal nie jest jasne. YouTube odmówił komentarza, mówiąc, że usunięcie filmu Radić było błędem. Jednak nowe badanie sugeruje, że odzwierciedla to niedociągnięcia w programach sztucznej inteligencji zaprojektowanych do automatycznego wykrywania mowy nienawiści, nadużyć i dezinformacji w Internecie.

Ashique KhudaBukhsh, naukowiec projektu, który specjalizuje się w sztucznej inteligencji na Carnegie Mellon University i sam poważny szachista, zastanawiał się, czy algorytm YouTube mógł być zdezorientowany dyskusjami dotyczącymi czarnych i białych figur, ataków i obrony.

Dlatego on i Rupak Sarkar, inżynier z CMU, zaprojektowali eksperyment. Wyszkolili dwie wersje modelu językowego o nazwie BERT, jedną wykorzystującą wiadomości z rasistowskiej skrajnie prawicowej strony internetowej Stormfront, a drugą wykorzystującą dane z Twittera. Następnie przetestowali algorytmy na tekście i komentarzach z 8818 szachowych filmów i stwierdzili, że są one dalekie od doskonałości. Algorytmy oznaczyły około 1% transkrypcji lub komentarzy jako szerzenie nienawiści. Ale ponad 80 procent tych oflagowanych było fałszywie pozytywnych – czytane w kontekście, język nie był rasistowski. „Bez człowieka w pętli”, mówi para w swoim artykule, „poleganie na przewidywaniach zwykłych klasyfikatorów na temat dyskusji o szachach może być mylące”.

Eksperyment ujawnił podstawowy problem programów językowych AI. Wykrywanie mowy nienawiści lub nadużyć to coś więcej niż tylko wyłapywanie wulgarnych słów i zwrotów. Te same słowa mogą mieć bardzo różne znaczenie w różnych kontekstach, więc algorytm musi wywnioskować znaczenie z ciągu słów.

„Zasadniczo język jest nadal bardzo subtelną rzeczą” – mówi Tom Mitchell, profesor CMU, który wcześniej pracował z KhudaBukhsh. „Tego rodzaju wyszkoleni klasyfikatorzy nie będą wkrótce w 100% dokładni”.

Yejin Choi, profesor nadzwyczajny na Uniwersytecie Waszyngtońskim, która specjalizuje się w sztucznej inteligencji i języku, mówi, że „wcale nie jest” zaskoczona usunięciem z YouTube, biorąc pod uwagę obecne granice rozumienia języka. Choi mówi, że dodatkowy postęp w wykrywaniu mowy nienawiści będzie wymagał dużych inwestycji i nowych podejść. Mówi, że algorytmy działają lepiej, gdy analizują więcej niż tylko fragment tekstu w izolacji, uwzględniając na przykład historię komentarzy użytkownika lub charakter kanału, w którym są publikowane.

Ale badania Choi pokazują również, w jaki sposób wykrywanie mowy nienawiści może utrwalać uprzedzenia. W badaniu z 2019 roku ona i inni odkryli, że adnotatorzy byli bardziej skłonni do oznaczania postów na Twitterze przez użytkowników, którzy sami identyfikują się jako Afroamerykanie, jako obraźliwe, a algorytmy wyszkolone do identyfikowania nadużyć za pomocą tych adnotacji będą powtarzać te uprzedzenia.

obraz artykułu

Przewodnik WIRED po sztucznej inteligencji

Inteligentne algorytmy nie podejmą wszystkich zadań, ale uczą się szybciej niż kiedykolwiek, robiąc wszystko, od diagnostyki medycznej po wyświetlanie reklam.

Firmy wydały wiele milionów na zbieranie i dodawanie adnotacji danych szkoleniowych dla samojezdnych samochodów, ale Choi mówi, że tego samego wysiłku nie włożono w język adnotacji. Jak dotąd nikt nie zebrał i nie opatrzył adnotacjami wysokiej jakości zestawu danych dotyczących mowy nienawiści lub nadużyć, który obejmuje wiele „skrajnych przypadków” z niejednoznacznym językiem. „Gdybyśmy zainwestowali taki poziom w gromadzenie danych – lub nawet niewielką ich część – jestem pewien, że sztuczna inteligencja może zrobić znacznie lepiej” – mówi.

Mitchell, profesor CMU, mówi, że YouTube i inne platformy prawdopodobnie mają bardziej wyrafinowane algorytmy sztucznej inteligencji niż ten, który zbudował KhudaBukhsh; ale nawet te są nadal ograniczone.

Zostaw komentarz

Maciek Luboński
Z wykształcenia jestem kucharzem , ale to nie przeszkadza mi pisać dla Was tekstów z wielu ciekawych dziedzin , których sam jestem fanem.Piszę dużo i często nie na tak jak trzeba , ale co z tego skoro tak naprawdę liczy się pasja.

Najlepsze recenzje

Video

gallery

Facebook