Ветеран Windows Дэйв Пламмер развенчал ключевой миф об ИИ на ПК 47-летней давности

Ветеран Windows Дейв Пламмер спростовує ключовий міф про ШІ на ПК 47-річної давнини

Известный программист-разработчик приложений для Windows Дэйв Пламмер запустил нейросеть на 47-летнем ПК PDP-11.

PDP-11 работает на процессоре 6 МГц и с 64 КБ ОЗУ. На нем Пламмер запускает модель трансформера «Attention 11», написанную на языке ассемблера PDP-11 Дэмиеном Бюре. Кажется, что задача, которую должна выполнить нейросеть — перевернуть последовательность из 8 цифр, на удивление проста.

Однако после успешного выполнения каждого входного этапа модель должна усвоить структурное правило для успешного выполнения любого вывода. По мнению Пламмера, именно в этом заключается ключевая суть моделей обучения современных LLM с линейным выводом, таких как ChatGPT.

«Один человек берет класс алгоритмов, которые сейчас воспринимаются миром как нечто сакральное, и доказывает, что это можно сократить, понять и реализовать на системе, достаточно старой, со времен, когда ПО выходило с переключателями и переплетенными в кольца руководствами. Теперь вы знаете, что это на самом деле за процесс. Это не магия ИИ. Это машина, которая постоянно обновляет мощность тысяч маленьких взвешенных ссылок, чтобы следующий ответ был чуть менее неправильным, чем предыдущий», — отмечает Пламмер.

Несмотря на использование Attention 11 — однослойного трансформера с одной головкой для концентрации внимания, полностью написанного на языке ассемблера PDP-11, Пламмеру все равно приходится оптимизировать систему с учетом ограничений.

Эта модель имеет всего 1216 параметров и использует вычисления с фиксированной точкой. Ее точность ограничена 8 битами. Каждый цикл оптимизируется для того, чтобы гарантировать, что модель вообще завершит обучение.

Мы наблюдаем за упрощенной анатомией самого обучения. Модель начинает с нуля. Изначально вероятность ошибки очень высока. Точность колеблется, как у человека, который пытается собрать мебель IKEA в кузове движущегося фургона. А потом где-то по дороге формируется шаблон. Механизм внимания начинает создавать карту обратного преобразования. И машина пересекает эту невидимую грань от догадки к знанию, — комментирует процесс Пламмер.

Ему удалось добиться 100% точности модели по обратному преобразованию чисел примерно после 350 шагов обучения. Для достижения этого уровня на PDP-11/44 с помощью кэш-памяти понадобилось около 3,5 минут. По словам Пламмера, современный ИИ лишь механическая технология со значительно улучшенным исправлением ошибок и масштабными арифметическими вычислениями.

«Эта старая машина не мыслит в каком-то мистическом смысле. Она просто выполняет арифметические вычисления для обновления нескольких тысяч тщательно сохраненных чисел. И в этом вся суть. Привлекательность современного ИИ в основном заключается в его масштабности. Но сам процесс обучения уже полностью реализован в миниатюре», — подчеркивает Пламмер.

В завершение он добавляет, что в условиях дефицита вычислительных ресурсов любая компания, которая вернется к принципам эффективности и оптимизации, сможет получить значительное преимущество.

СпецпроектыAORUS ELITE 16: як виглядає ноутбук для нового горору Resident Evil Requiem від CapcomВід застарілої інституції до data-product компанії: як будували Держстат 2.0

Ранее мы писали, что ИИ помог NVIDIA сократить процесс проектирования микросхем с 10 месяцев до одной ночи. Канадский стартап построил первый в мире коммерческий дата-центр в космосе.

AI Overviews від Google розповсюджує дезінформацію у масштабах, катастрофічних для людства, — дослідження

Источник: Tom’s Hardware