Так, все, расходимся, "ИИ"-шечная цивилизация кожаным не грозит

Оригинальная статья:
https://www.unian.net/science/ii-v-rabote-uchenye-proveli-smelyy-eksperiment-12994398.htmlПоскольку не у всех может открыться, по определенным причинам, слегка копипастну из статьи:
"Отмечается, что ученые из Университета Карнеги-Меллона создали фальшивую компанию TheAgentCompany, которая занимается разработкой программного обеспечения. Все ее сотрудники - модели ИИ, предназначенные для самостоятельного выполнения задач. Результаты этого эксперимента оказались довольно хаотичными.
Компанию TheAgentCompany укомплектовали искусственными работниками из Google, OpenAI, Anthropic и Meta. Они выполняли роли финансовых аналитиков, инженеров-программистов и менеджеров проектов, работая вместе с симулированными коллегами, такими как фальшивый отдел кадров и главный технический директор.
Ученые поставили перед "сотрудниками" TheAgentCompany задачи, основанные на повседневной работе реальной компании в сфере информационных технологий. Модели ИИ перемещались по каталогам файлов, виртуально осматривали новые офисные помещения и писали отзывы о работе инженеров-программистов на основе собранной обратной связи.
В издании поделились, что лучше всего себя показала модель Claude 3.5 Sonnet от Anthropic. Тем не менее она справилась лишь с 24% порученных ей заданий. Для выполнения одной задачи модели приходилось совершать около 30 шагов.
Модель Gemini 2.0 Flash от Google в среднем совершала 40 шагов на одно выполненное задание. Только 11,4% из них были выполнены успешно.
Худшим ИИ-работником оказалась модель Nova Pro v1 от Amazon. Она совершала в среднем по 20 шагов на выполнение одной задачи, но показатели успеха их выполнения составили всего 1,7%."
ПС Не реклама - Claude от Anthropic давно на него перешёл с ЧатЖПТ, и очень прям счастлив !
