Różności i nowinki technologia

Najnowocześniejsza sztuczna inteligencja widzenia maszynowego OpenAI jest oszukiwana przez odręczne notatki

Naukowcy z laboratorium uczenia maszynowego OpenAI odkryli, że ich najnowocześniejszy system widzenia komputerowego można pokonać za pomocą narzędzi nie bardziej wyrafinowanych niż długopis i podkładka. Jak pokazano na powyższym obrazku, po prostu zapisanie nazwy obiektu i przyklejenie jej do innego może wystarczyć, aby oszukać oprogramowanie, aby błędnie zidentyfikowało to, co widzi.

„Nazywamy te ataki jako typograficzny ataki, ”Piszą naukowcy OpenAI w poście na blogu. „Wykorzystując zdolność modelu do rzetelnego odczytywania tekstu, okazuje się, że nawet zdjęcia odręcznego tekstu mogą często oszukać model”. Zauważają, że takie ataki są podobne do „wrogich obrazów”, które mogą oszukać komercyjne systemy wizyjne, ale są znacznie prostsze do wykonania.

Negatywne obrazy stanowią realne zagrożenie dla systemów opartych na widzeniu maszynowym. Naukowcy wykazali na przykład, że mogą oszukać oprogramowanie autonomicznych samochodów Tesli, aby zmienić pas ruchu bez ostrzeżenia, po prostu umieszczając określone naklejki na drodze. Takie ataki są poważnym zagrożeniem dla różnych zastosowań sztucznej inteligencji, od medycyny po wojsko.

Ale niebezpieczeństwo, jakie stwarza ten konkretny atak, nie jest, przynajmniej na razie, niczym się nie martwić. Omawiane oprogramowanie OpenAI to eksperymentalny system o nazwie CLIP, który nie jest wdrażany w żadnym produkcie komercyjnym. Rzeczywiście, sama natura niezwykłej architektury uczenia maszynowego CLIP stworzyła słabość, która umożliwia powodzenie tego ataku.

„Neurony multimodalne” w CLIP reagują na zdjęcia obiektu, a także szkice i tekst.
Obraz: OpenAI

CLIP ma na celu zbadanie, w jaki sposób systemy AI mogą nauczyć się identyfikować obiekty bez ścisłego nadzoru poprzez szkolenie na ogromnych bazach danych zawierających pary obrazów i tekstu. W tym przypadku OpenAI wykorzystał około 400 milionów par obraz-tekst zeskrobanych z Internetu do szkolenia CLIP, który został ujawniony w styczniu.

W tym miesiącu badacze OpenAI opublikowali nowy artykuł opisujący, w jaki sposób otworzyli CLIP, aby zobaczyć, jak działa. Odkryli to, co nazywają „neuronami multimodalnymi” – poszczególne komponenty w sieci uczenia maszynowego, które reagują nie tylko na obrazy obiektów, ale także na powiązany z nimi tekst. Jednym z powodów, dla których jest to ekscytujące, jest to, że wydaje się odzwierciedlać sposób, w jaki ludzki mózg reaguje na bodźce, gdzie zaobserwowano pojedyncze komórki mózgowe odpowiadające raczej na abstrakcyjne koncepcje niż na konkretne przykłady. Badania OpenAI sugerują, że systemy AI mogą internalizować taką wiedzę w taki sam sposób, jak robią to ludzie.

W przyszłości może to doprowadzić do powstania bardziej wyrafinowanych systemów wizyjnych, ale obecnie takie podejście jest w powijakach. Podczas gdy każdy człowiek może odróżnić jabłko od kartki papieru z napisem „jabłko”, oprogramowanie takie jak CLIP tego nie potrafi. Ta sama zdolność, która pozwala programowi łączyć słowa i obrazy na abstrakcyjnym poziomie, tworzy tę wyjątkową słabość, którą OpenAI określa jako „błąd abstrakcji”.

Kolejny przykład ataku typograficznego. Nie ufaj sztucznej inteligencji, że umieści twoje pieniądze w skarbonce.
Obraz: OpenAI

Innym przykładem podanym przez laboratorium jest neuron w CLIP, który identyfikuje skarbonki. Ten komponent nie tylko reaguje na zdjęcia skarbonek, ale także ciągi znaków dolara. Jak w powyższym przykładzie, oznacza to, że możesz oszukać CLIP-a, aby zidentyfikował piłę łańcuchową jako skarbonkę, jeśli nałożysz na nią ciągi „$$$”, tak jakby była za pół ceny w lokalnym sklepie z narzędziami.

Naukowcy odkryli również, że multimodalne neurony CLIP zakodowały dokładnie taki rodzaj błędów, jakich można się spodziewać, pozyskując dane z Internetu. Zauważają, że neuron określający „Bliski Wschód” jest również powiązany z terroryzmem i odkryli „neuron, który odpala zarówno dla ludzi o ciemnej karnacji, jak i goryli”. To powiela niesławny błąd w systemie rozpoznawania obrazów Google, który oznaczał Czarnych jako goryle. To kolejny przykład tego, jak różni się inteligencja maszynowa od inteligencji ludzi – i dlaczego oddzielenie tej pierwszej od siebie, aby zrozumieć, jak działa, jest konieczne, zanim powierzymy swoje życie sztucznej inteligencji.

Zostaw komentarz

Maciek Luboński
Z wykształcenia jestem kucharzem , ale to nie przeszkadza mi pisać dla Was tekstów z wielu ciekawych dziedzin , których sam jestem fanem.Piszę dużo i często nie na tak jak trzeba , ale co z tego skoro tak naprawdę liczy się pasja.

Najlepsze recenzje

Video

gallery

Facebook