Генеративен AI и защита на данните: Кои са най-големите рискове за работодателите?

За работодателите, които се изкушават да експериментират с генеративни AI инструменти като ChatGPT, има определени подробности за защита на данните, които трябва да се имат предвид. С подобряването на законодателството за поверителност и защита на данните през последните години в САЩ, Европа и по света, става ясно, че не може просто да се подадат данни за човешките ресурси в генериращ AI инструмент. В края на краищата данните за персонала често са изключително чувствителни, включително показателите за ефективността, финансови детайли и дори здравна информация.

Очевидно това е област, в която работодателите трябва да потърсят подходящо правно ръководство. Също така е добра идея да се консултират с експерт по ИИ относно етиката на използването на генеративен ИИ (така че не само да се действа в рамките на закона, но и да е етично и прозрачно). Като отправна точка има две основни съображения, които работодателите трябва да имат предвид:

Подаване на лични данни в генериращи AI системи

Данните на служителите често са изключително чувствителни и лични. Това е точно видът данни, който в зависимост от конкретната юрисдикция, обикновено е обект на най-високите форми на правна защита. А това означава, че е изключително рисковано да бъдат използвани тези данни в генериращ AI инструмент. Много от тези инструменти използват предоставената им информация за фина настройка на основния езиков модел. С други думи, той може да използва информацията, която подавате в него за целите на обучението – и потенциално може да разкрие тази информация на други потребители в бъдеще.

Например използвате генеративен AI инструмент, за да създадете отчет за възнагражденията на служителите въз основа на вътрешни данни за тях. Тези данни биха могли потенциално да бъдат използвани от инструмента за изкуствен интелект за генериране на отговори към други потребители (извън вашата организация) в бъдеще. Личните данни биха могли доста лесно да бъдат абсорбирани в генеративния AI инструмент и да бъдат повторно използвани.

Като основна защита се препоръчва всички данни, изпратени до генерираща AI услуга, да бъдат анонимизирани и лишени от всякаква персоналност. Това също е известно като „деидентифициране“ на данните.

Рискове, свързани с генериращи AI резултати

Не става въпрос само за данните, които се въвеждат в генеративна AI система. Има и рискове, свързани с изхода или съдържанието, създадено от езиковия модел. По-специално, съществува риск изходът от генеративни AI инструменти да се основава на лични данни, които са събрани и обработени в нарушение на законите за защита на данните.

Като пример, да приемем, че поискате от генеративен AI инструмент да генерира отчет за типичните заплати в сектора за вашия местен район. Съществува риск инструментът да изтрие лични данни от интернет – без съгласие, в нарушение на законите за защита на данните – и след това да ви предостави тази информация. Работодатели, които използват каквито и да било лични данни, предлагани от генеративен AI инструмент, биха могли потенциално да носят известна отговорност за нарушение на защитата на данните. Засега това е легална „сива зона“ и най-вероятно доставчикът на генериращ AI ще понесе по-голямата част или цялата отговорност, но рискът е налице.

В някои случаи данни, които са публично достъпни в интернет, не се квалифицират като събиране на лични данни, тъй като те вече са публични. Това обаче варира в различните юрисдикции, така че една компания трябва да проучва условията на различните места, на които оперира.

Пътят към новия начин на работа

Жизненоважно е работодателите да обмислят последиците за защитата на данните и поверителността от използването на генеративен AI и да потърсят експертен съвет. Това обаче не спира повечето компании, защото тези нови технологии могат да бъдат невероятно ценен инструмент за работодателите.

Важно е да се отбележи, че се разработват и нови инструменти, които вземат предвид поверителността на данните. Един пример идва от Харвард, където са разработили AI sandbox инструмент, който позволява на потребителите да използват определени големи езикови модели, включително GPT-4, без да разкриват своите данни. Подканите и данните, въведени от потребителя, се виждат само от това лице и не могат да се използват за обучение на моделите. На други места компаниите създават свои собствени версии на инструменти като ChatGPT, които не споделят данни извън организацията.