На ръба ли сме на експлозия на самоусъвършенстващ се AI?

В научната фантастика е известна концепцията за възникващ изкуствен интелект, който се освобождава от своите ограничения, като модифицира собствения си код. Като се има предвид това измислено основание, не е изненадващо, че изследователите на ИИ и технологичните компании също са инвестирали значително внимание в идеята за системи с ИИ, които могат да се подобрят сами или поне да проектират свои собствени подобрени наследници.

Тези усилия показаха известен умерен успех през последните месеци, но изследвания също така подчертават някои присъщи ограничения, които биха могли да попречат на вида рекурсивна експлозия на AI, за която са мечтали автори на научна фантастика и различни визионери.

Концепцията за самоусъвършенстващ се AI датира от британския математик IJ Good, който пише през 1965 г. за „експлозия на интелигентност“, която може да доведе до „ултраинтелигентна машина“. През 2007 г., основателят на LessWrong и мислителят на AI Eliezer Yudkowsky измисля термина „Seed AI“, за да опише „AI, предназначен за саморазбиране, самомодификация и рекурсивно самоусъвършенстване“. Сам Алтман от OpenAI публикува същата идея в блог през 2015 г., като казва, че подобни самоусъвършенстващи се ИИ са „все още малко далеч“, но също така „вероятно най-голямата заплаха за продължаващото съществуване на човечеството“ (позиция, която удобно рекламира потенциалната стойност и важност на собствената компания на Алтман).

Въпреки че концепцията е по-лесна за описване, отколкото за прилагане, изследователите са показали известен успех в трудната задача за действително създаване на този вид самоподсилващ се ИИ. В по-голямата си част обаче тези усилия се фокусират върху използването на самия LLM за подпомагане на проектирането и обучението на „по-добър“ модел наследник, вместо да редактират вътрешните тегла на модела или основния код в реално време. В известен смисъл това е просто продължение на вековната технологична практика за използване на инструменти за изграждане на по-добри инструменти или използване на компютърни чипове за проектиране на по-добри чипове.

В скорошен документ изследователите на Meta предложиха „самонаграждаващ се езиков модел“, предназначен да създаде собствена нова функция за възнаграждение за следващ модел. Изследването беше предложено отчасти като усилие за потенциално прескачане на човешките предпочитания, които могат да бъдат затруднени от нивото на човешкото представяне.

През август екип от изследователи се опита да използва GPT-4, за да помогне за създаването на „самоук оптимизатор“ за различни упражнения за алгоритмично кодиране. Изследователите започнаха с функция за „подобряване“ на началния етап в Python — фокусирана върху повишаване на ефективността на дадена алгоритмична задача. След това те пуснаха тази функция на самата функция за подобряване, с цел да създадат „подобрен подобрител“, измерен чрез внимателно изработена функция „мета-полезност“.

Докато GPT-3.5 и Mixtral не успяха да подобрят собствената си функция на подобрител по този начин, GPT-4 показа скромни подобрения в своя подобрител на семена през следващите поколения. В много малък брой случаи (по-малко от 0,5 процента) функцията за подобряване дори е изключила флаг "sandbox", предназначен да ограничи възможностите му, подчертавайки потенциала за самоподсилващ се AI да модифицира всички вградени предпазни мерки.

„Тъй като самите езикови модели не са променени, това не е пълно рекурсивно самоусъвършенстване“, отбелязват изследователите. „Въпреки това, той демонстрира, че модерен езиков модел, GPT-4 в нашите експерименти, е способен да пише код, който може да се самоизвиква, за да се подобри.“

Висок риск, висока награда

Тези примери наистина само драскат повърхността на това, което се превръща в голям изследователски фокус върху самоусъвършенстването в пространството на ИИ. Google Deepmind, Microsoft и Apple са публикували подобни документи, разглеждащи концепцията, заедно с множество академични лаборатории. Всички тези изследвания карат някои наблюдатели да се притесняват от потенциала за самокодиращи AI системи, които бързо изпреварват както нашата интелигентност, така и нашите способности да ги контролираме.

Искането на генерализиран LLM да преценява и подобрява себе си може да се натъкне на проблеми със субективността, когато става въпрос за оценка на вида абстрактно разсъждение, което определя голяма част от човешкия интелект. Много наблюдатели също така смятат, че самоусъвършенстващите се LLM няма да могат наистина да преодолеят платото на производителността без нови източници на информация извън техните първоначални данни за обучение. Някои се надяват, че AI ще могат да създават свои собствени полезни синтетични данни за обучение, за да преодолеят този вид ограничения.