Дэвид Шапиро: AGI появится через 1,5 года
Переломный момент пройден, и через 1,5 года появится AGI. Комбинация больших денег, открытых фреймворков и превращение LLM в когнитивных агентов сработает. Анализ, опубликованный Дэвидом Шапиро, очень интересен своим взглядом на происходящее, он учитывает три не совсем очевидных фактора.
Действительно, если объединить потенциальное влияние трех названных Дэвидом факторов на развитие ИИ в ближайшие 1,5 года, то этого времени вполне может быть достаточно для появления ИИ на планете.
Во избежание пустых терминологических споров сразу внесем ясность. Существуют десятки определений «искусственного интеллекта общего назначения», многие из которых существенно различаются и зачастую противоречат друг другу, что требует итеративного разъяснения понятий, используемых в этих определениях.
Поэтому лучше оставить терминологические споры философам и просто воспользоваться «критерием утки»: если ИИ как интеллектуальный агент способен выглядеть в глазах людей как человек, выполнять любую интеллектуальную работу как люди и действовать в новых для него ситуациях так, как действовали бы люди на его месте, то будем считать, что этот ИИ является общим искусственным интеллектом (ОИИ). Фраза «ИИ появится через 1,5 года» означает, что появится ИИ, который будет удовлетворять упомянутому выше «критерию утки».
Аргумент Дэвида Шапиро о том, что для создания ОИИ достаточно полутора лет, базируется на трех положениях.
1) Компании верят, что ИИ действительно может творить чудеса. И поэтому в течение следующих 18 месяцев в разработку ИИ будут вложены огромные инвестиции, чтобы радикально снизить цену «интеллектуального вывода» для конечного пользователя (например, на его смартфоне) из-за очень высокой стоимости обучения больших моделей. Дэвид приводит хороший пример из отчета Morgan Stanley: «Мы думаем, что GPT 5 в настоящее время обучается на 25 тыс. графических процессоров — оборудование NVIDIA стоимостью около 225 млн долларов — и затраты на вывод, вероятно, намного ниже некоторых из цифр, которые мы видели».
2) Фреймворки для разработки приложений на основе языковых моделей, например, LangChain, не только позволяют получать доступ к языковой модели через API, но и позволяют модели подключать языковую модель к другим источникам данных, позволяют превратить модель в агента, позволяют ей взаимодействовать с окружающей средой.
3) Системные парадигмы (например, MM-REACT) уже разработаны, которые объединяют ChatGPT с пулом экспертов для достижения мультимодального мышления и действий для решения сложных проблем понимания. В рамках такой парадигмы можно будет создавать когнитивные потоки действий, процесс генерации ответов пользователям посредством комбинации рассуждений ChatGPT и экспертных действий.
Если все три фактора: дешевый интеллектуальный вывод, превращение модели в агента и генерация потоков когнитивных действий, сработают, то через 18 месяцев мы больше не будем спорить об определениях AGI, потому что это просто больше не будет иметь значения в свете компетенций, приобретенных ОИИ.