Sztuczna inteligencja zaliczyła test Turinga – ChatGPT bliżej człowieka niż kiedykolwiek?

Media na całym świecie obiegła informacja o tym, że sztuczna inteligencja przeszła słynny test Turinga, co miałoby oznaczać, że staje się nieodróżnialna od człowieka. Źródłem tych doniesień jest niedawne badanie przeprowadzone przez naukowców z Uniwersytetu Kalifornijskiego w San Diego, o czym informuje portal Science Alert.

W marcu 2024 roku Cameron Jones oraz Benjamin Bergen, specjaliści z zakresu kognitywistyki, opublikowali wyniki swojego eksperymentu, który jednak nie został jeszcze oficjalnie zrecenzowany. W badaniu wzięły udział cztery modele językowe (LLM): ELIZA, GPT-4o, LLaMa-3.1-405B oraz GPT-4.5. Test polegał na symulacji rozmowy tekstowej, w której uczestnik przez pięć minut prowadził równoległą konwersację z dwoma rozmówcami. Jeden był człowiekiem, drugi – chatbotem.

Celem testu było ustalenie, czy uczestnicy potrafią odróżnić człowieka od maszyny jedynie na podstawie prowadzonej konwersacji. Najbardziej przekonujący okazał się model GPT-4.5 stworzony przez OpenAI, który aż w 73% przypadków został błędnie uznany za prawdziwą osobę. Model LLaMa-3.1-405B wprowadził w błąd 56% uczestników, natomiast dwa pozostałe modele, ELIZA oraz GPT-4o, były mniej skuteczne, odpowiednio z wynikiem 23% i 21%.

Eksperyment badaczy z Kalifornii opierał się na klasycznej koncepcji testu Turinga, zaproponowanego przez Alana Turinga już w 1948 roku. Turing stworzył tę metodę, by zbadać, czy maszyna potrafi imitować ludzkie zachowanie, zwłaszcza w sferze komunikacji językowej. Test szybko stał się jednym z najbardziej znanych i kontrowersyjnych sposobów oceny inteligencji maszyn.

Jednak sam test budzi liczne kontrowersje. Krytycy zwracają uwagę na to, że zdolność do imitacji ludzkiej rozmowy niekoniecznie świadczy o prawdziwym rozumieniu, a jedynie o skutecznym udawaniu go. Inteligencja bowiem to nie tylko zdolność do sprawnej komunikacji, ale również emocje, świadomość, intencje oraz doświadczenie cielesne. Dodatkowo eksperyment przeprowadzony przez Jonesa i Bergena był bardzo krótki – trwał zaledwie pięć minut – co może być niewystarczające do pełnego sprawdzenia możliwości modelu językowego. Modele były także specjalnie poproszone o przyjęcie określonej osobowości, co mogło wpłynąć na wyniki.

Choć rezultat testu wskazuje, że GPT-4.5 skutecznie imituje człowieka, badacze nie uznają tego za pełny dowód inteligencji maszynowej równej ludzkiej. Test Turinga, mimo swojej popularności, wciąż pozostaje narzędziem, które dostarcza więcej pytań niż odpowiedzi o rzeczywistą naturę sztucznej inteligencji.

Sztuczna inteligencja zaliczyła test Turinga – ChatGPT bliżej człowieka niż kiedykolwiek?

Szczegóły eksperymentu

Który model wypadł najlepiej?

Czym jest test Turinga?

Kontrowersje wokół testu

Wnioski

powiązane