Я заразил 200 нейросетей вирусом. К 20-му поколению они выработали иммунитет — и разучились думать
Что общего у бактерий в чашке Петри и языковых моделей? Я провел эксперимент: создал популяцию из 200 microGPT и «заразил» их вредоносным паттерном. Через 20 поколений эволюции нейросети научились выживать, но цена этого иммунитета оказалась пугающей. Разбираемся, как работает Alignment Tax на практике и почему «безопасные» модели неизбежно глупеют.
Читать далее