Что умеет самый находчивый искусственный интеллект в мире
Компания OpenAI представила новый алгоритм написания текстов GPT-3. Он умеет писать стихи и новости, делать переводы, разгадывать анаграммы и отвечать на вопросы. Для того, чтобы научить этому искусственный интеллект, потребовалось 570 гигабайт текста. Рассказываем, как обучали и тестировали самый находчивый на данный момент алгоритм.
OpenAI отчиталась о результатах тестирования алгоритма написания текстов GPT-3. Он повторяет предыдущую версию, GPT-2, на архитектуре Transformer, которая позволяет обучать алгоритм, увеличивая спектр задач, с которыми он справляется при распознавании текста.
Архитектура включает в десять раз больше параметров, на которых проводилось обучение – 175 млрд. Средняя точность выполнения заданий составила 60%. В России для совершенствования подобных решений открыт технологический конкурс Up Great ПРО//ЧТЕНИЕ, организованный РВК, Фондом «Сколково» и АСИ.
Главное препятствие для разработчиков при обучении алгоритма на конкретных задачах — преодолеть зависимость от контекста. Многие алгоритмы справляются с поставленными задачами потому, что обучены на таких же.
Но если учить алгоритм отгадывать кроссворды на соответствующем массиве данных, он не сможет писать стихи. Чтобы научить алгоритм распознавать текст, независимо от задачи, используют предварительное обучение языковым образам с помощью наслаивания родственных по смыслу групп слов, и дальнейшего применения для широкого круга задач. Разработчикам GPT-3 частично удалось преодолеть зависимость от контекста, обучая алгоритм на большом объеме данных.
Как учили GPT-3
Для обучения алгоритма сформировали набор очищенных данных, подходящих для обработки машиной. В этот массив вошли данные проекта Common Crawl, вся Википедия, два датасета с книгами и вторая версия датасета WebText: в нем были тексты с сайтов, страницы которых были отмечены пользователями, как полезные по контенту.
Вычислительные ресурсы, потраченные на обучение разных вариантов нейросетей BERT, T-5, GPT-3 в петафлопс/секунда-днях на логарифмической шкале. Полный вариант GPT-3 превосходит все другие варианты в 10 раз по количеству потраченных вычислительных ресурсов OpenAI
Чтобы оценить зависимость производительности от размера модели, GPT-3 обучали на восьми объемах параметров, которые зависели от количества слоев данных. В самом маленьком было 125 млн параметров, в финальном — 175 млрд. Все задачи решались с тремя условиями: обучение с одним примером (one-shot learning), обучение с несколькими примерами (few-shot learning) и без примеров (zero-shot learning).
Как тестировали GPT-3
Обученный алгоритм тестировали на традиционных задачах моделирования языка. Вот некоторые из них:
Подход моделирования зависимости: алгоритму ставят задачу предсказать последнее слово в предложении на основе контекста параграфа. Есть предположение, что масштабирование модели приводит к ухудшению результата в зависимости от проделанной им работы. Но авторы GPT-3 находят подход перспективным, потому что он обеспечивает гибкость обучения алгоритма.
Alice was friends with Bob. Alice went to visit her friend. → Bob
George bought some baseball equipment, a ball, a glove, and a. →
В этом наборе алгоритм должен выбрать наилучший из возможных вариантов окончаний для истории. Варианты предварительно тщательно изучены, чтобы быть одновременно трудными для языковых моделей, но оставаться легкими для людей, то есть очевидными на 95,6%. GPT-3, обучаясь на HellaSwag, показывает точность в ответах в среднем 75,4%.
Схема Винограда, названная в честь Терри Винограда, профессора компьютерных наук в Стэнфордском университете. В ней алгоритму ставят задачу определить, к какому слову относится местоимение. Местоимение неоднозначно по смыслу для машины, но абсолютно понятно для человека. Например, ответить на вопрос: «Приз не влезает в коричневый чемодан, потому что он большой. Что имеется в виду под «он»?»
Word Scrambling and Manipulation Tasks
Чтобы проверить способность алгоритма усваивать новые символические манипуляции , авторы разработали стратегию , состоящую из нескольких задач. Каждое задание требует исправить слово, искаженное комбинациями смешивания, например:
- Слово с хаотичным порядком букв – модели предлагается слово, порядок букв в котором случайно перемешан, затем символ «=». Например, дано «lyinevitab», нужно получить «inevitable» (неизбежно)
- Случайная вставка в слове – между каждой буквой слова ставится случайный знак пунктуации или пробел. Пример: s.u! C / c! E.s s i / o / n = sequence
- Перевернутые слова – модели дается слово, написанное задом наперед, она должна вывести исходное слово. Пример: stcejbo → objects
Для каждой задачи было сгенерировано 10 000 вариантов самых популярных слов, длиной более 4 символов, но менее 15 символов.
News Article Generation
Предыдущий алгоритм (GPT-2) был обучен создавать «новостные статьи», получив написанное человеком вступление, и выбирая предложения для итогового материала.
Набор данных для обучения GPT-3 хуже подходит для новостных статей, поэтому попытка создавать с его помощью новостные статьи менее эффективна.
Новостная статья, написанная GPT-3, которая больше всего похожа на текст, написанный человеком OpenAI
Какой будет следующая GPT?
Средняя точность решений самой объемной и продвинутой модели, которую обучали на 175 млрд параметров, составила по всем заданиям 60%. Несмотря на прогресс и написание статей, которые трудно отличить от написанных человеком, остаются наборы данных, при работе с которыми GPT-3 испытывает затруднения.
Юрий Молодых
Директор по развитию технологических конкурсов Up Great
Огромный шаг вперед, который показала команда OpenAI, послужит основой для многих десятков новых работ и в какой-то степени задаст повестку развития NLP-систем на ближайшие полгода-год.
Однако нельзя не отметить, что этот трансформер создан вложением колоссальных ресурсов Microsoft, проинвестировавшей 1 млрд долларов в форме мощностей отдельного вычислительного центра, отданного под нужды OpenAI. По некоторым оценкам, стоимость электричества и эксплуатации вычислителей для обучения GPT-3 составила около 12 миллионов долларов — и это не считая времени специалистов; одна только аренда оборудования стоит колоссальных денег.
При этом, мы видим, что на некоторых задачах оно работает не лучше GPT-2.
Из этого можно сделать несколько выводов:
1. Задача создания универсального языкового движка пока что не решается только вливанием денег. Существующие методы не позволяют на одной лишь обучающей выборке огромного размера получить ключ к пониманию естественного языка машиной. Создать обучающую выборку в 100 раз больше этой и обучить на ней нейросеть вряд ли практически возможно в ближайшей перспективе.
2. Сообщество Data Science нуждается в новых методах машинного обучения, которые будут способны получить интересный результат на датасете меньшего размера. Это хорошо подтверждается тезисом Яна Лекуна, лауреата премии Тьюринга, который в феврале этого года формулировал три основных проблемы перед сообществом: обучение на данных меньшего размера, обучение рассуждать (т.е. логике: индукция, дедукция и т.п.) и предсказание последствий.
3. В ближайшей перспективе действительно интересные решения в области NLP возможны либо по очень узким задачам, либо игрокам большого размера, которые могут вложить десятки и сотни миллионов долларов в обучение одной нейросети. В этой связи для небольших игроков все большее значение приобретают такие проекты, как OpenCog, которые нацелены на создание открытых систем, обеспечивающих кооперативную разработку решений.
Мы надеемся, что наш конкурс ПРО//ЧТЕНИЕ сможет стать точкой обмена опытом и технологиями для российских команд и подстегнет развитие области NLU (natural language understanding, понимание естественного языка) в России.
Бонус
Стихотворение, написанное GPT-3 в стиле американского поэта Уоллеса Стивенса. Для «вдохновения» алгоритм получил лишь название будущего произведения: «Shadows on the way»
Nobody will come to this place. It is a road that leads nowhere.
The solitude is deep. The mountains are high. In that small town
But they are desolate, and they turn the traveler’s face
Towards the North. All the sounds of the world are far away.
When the wind rises above the trees,
The boughs bow to the ground.
Even the birds that inhabit the tangle of weeds,
That is the roadside cover, are silent. One listens,
But hears no roar of the forest. One is alone.
One will be taken.
One will be taken.
There is no utterance, there is no conversation,
But one is uneasy all the same.
There is a thin blue mist,
A darkness rising like smoke,
And within that darkness
A possession of the heart.
One will be taken. It was here, and it will be here again –
Here, under this sky empty and full of light.
Прием заявок на конкурс Up Great ПРО//ЧТЕНИЕ открыт на официальном сайте.
Что умеет самая умная нейросеть на Земле и почему недовольны разработчики искусственного интеллекта
GPT-4 — четвертая версия большой языковой нейросетевой модели от компании Open AI. Несмотря на то, что GPT-4 самая мощная и совершенная версия искусственного интеллекта, ее презентация вызвала не только восторг специалистов по работе с данными, но и вопросы к Open AI.

По сравнению с предыдущей версией (GPT-3,5) новая модель получила пять радикальных улучшений.
GPT-4 понимает очень сложные запросы, сформулированные на 26 языках с большим количеством нюансов. Этого удалось добиться благодаря увеличению лимита слов в запросе. Модель обрабатывает до 25 тысяч слов (GPT-3.5 ограничена 8 тысячами). Более чем трехкратное увеличение напрямую влияет на детализацию, которую можно использовать при постановке задач. Глубину понимания запросов и контекста ярко демонстрируют успешно сданные нейросетью экзамены и стандартизированные тесты в коллегию адвокатов, университеты и другие организации. GPT-4 проходила тесты и сдавала экзамены без специальной подготовки и дообучения. При этом она не только получила высокий балл по всем направлениям, но и превзошла более чем 70% людей.
GPT-4 стала мультимодальной и теперь понимает не только тексты, но и изображения в качестве вводимой информации. Причем возможности GPT-4 при считывании изображений выходят за рамки простой интерпретации. Во время демонстрации своих возможностей модель распознала эскиз сайта, нарисованный от руки в качестве техзадания, написала HTML-код и JavaScript и превратила эскиз в веб-сайт.
В OpenAI говорят, что GPT-4 обладает очень высокой степенью управляемости. Пользователи могут определять стиль и характер ИИ, создавать виртуальных «персонажей», ограничивать их в заданной роли, и искусственно сужать круг обсуждаемых вопросов.
OpenAI потратила шесть месяцев на то, чтобы сделать GPT-4 более безопасным и согласованным. Компания утверждает, что вероятность ответа на запросы с неприемлемым или запрещенным контентом снизилась на 82%. Также на 29% стала выше вероятность ответа на конфиденциальные запросы в соответствии с политиками OpenAI, и на 40% повысилась вероятность предоставления фактических ответов по сравнению с GPT-3,5.
Помимо оценки модели на различных экзаменах, предназначенных для людей, GPT-4 проверили в тестах, разработанных для моделей машинного обучения. Было проведено более 10 бенчмарков и везде GPT-4 заметно опередила конкурентов и предыдущие версии GPT.
Первым продуктом, где используется новая нейросетевая модель, стал уже ставший знаменитым, чатбот ChatGPT. Его платная версия ChatGPT +, доступна по подписке за 20 долларов в месяц.
Еще один продукт, куда интегрирована GPT-4 — это ИИ-помощник Copilot для офисных приложений Microsoft 365. Компания Microsoft является ключевым партнером OpenAI, инвестирующим в эту компанию 10 млрд долларов.
Copilot должен помочь пользователям Microsoft 365 подводить итоги встреч, писать эссе и заметки на основе данных из других приложений Microsoft и аналитики из Microsoft Graph. Также в его задачи входит подготовка презентации на основе текстов, отправка приглашений и другие задания. Пока Copilot существует только в тестовой версии.
GPT-4 также встроили в чаты на платформе изучения иностранных языков Duolingo и в сервис электронных платежей Stripe. Модель используется в образовательной организации Khan Academy и в мобильном приложении Be My Eyes, которое помогает плоховидящим посредством видеозвонков. Функция «Виртуальный волонтер», которую планируют интегрировать в Be My Eyes, будет содержать генератор голосового описания изображений.
Почти все эксперты высоко оценили работу, проделанную датасайентистами OpenAI
Так по оценке технического директора компании Cloud, Федора Прохорова, GPT4 — это действительно значительный шаг вперед в области универсальных ML-моделей.
«Значительные отличия GPT4 от предыдущей версий — это высокая креативность (особенно в области сложных или мультиязычных задач), мультимодальность, безопасность (разработчиками были инвестированы огромные усилия в повышение безопасности генерируемого контента) и понимание контекста (возможность задавать и удерживать контекст диалога при решении сложных задач)», — говорит Прохоров.
Однако, несмотря на впечатляющие характеристики GPT4, у сообщества ИИ-разработчиков возникли вопросы к Open AI, которая практически не предоставила никакой информации о данных, используемых для обучения системы, затратах на разработку и обучение, характеристиках оборудования и методах, использованных для создания GPT-4.
Закрытый подход является самым заметным за последнее годы изменением политики OpenAI, которая была основана в 2015 году небольшой группой экспертов и бизнесменов, и в которую входили нынешний генеральный директор Сэм Альтман, генеральный директор Tesla Илон Маск (ушел из совета директоров в 2018 году) и исследователь ИИ Илья Суцкевер. Изначально OpenAI позиционировалась, как некоммерческая организация, но позже стала «компанией с ограниченной прибылью». Это было сделано для того чтобы обеспечить миллиардные инвестиции от Microsoft, с которой было заключено эксклюзивное партнерство. На вопрос издания The Verge, почему OpenAI изменила свой подход к публикации своих исследований, главный научный сотрудник и соучредитель OpenAI Суцкевер ответил: » Если вы, как и мы, верите, что в какой-то момент ИИ — станет чрезвычайно, невероятно мощным, тогда в открытом исходном коде просто нет смысла. Это плохая идея… Я полностью ожидаю, что через несколько лет всем станет совершенно очевидно, что ИИ с открытым исходным кодом просто неразумен».
Многие в сообществе ИИ раскритиковали это решение, отметив, что оно подрывает дух компании OpenAI, как исследовательской организации и затрудняет повторение ее работы другими исследователями. Также важно, что это мешает разработке средств защиты от угроз, исходящих от такой мощной ИИ-системы, как GPT-4. Эксперты отмечают, что ИИ прогрессирует столь быстро, что бизнес, сообщество и государство не успевают адекватно оценить уровень рисков, который несут подобные нейросети.
Генеральный директор компании Digital Consulting Solutions Александр Скоморохин считает, что Open AI отказались от раскрытия исследовательских материалов по причинам безопасности кода и что важную роль сыграли опасения по поводу конкурентов. «Последние годы IT-гиганты активно инвестируют в Open AI, что говорит о том, что компания постепенно теряет свою некоммерческую составляющую, которая предполагала открытое сотрудничество с академическими учреждениями и исследовательскими организациями. Все больше компаний хотят делать похожий продукт, так что решение Open AI изменить свой подход к публикации исследований выглядит как ответ на нарастающую рыночную конкуренцию», — считает глава Digital Consulting Solutions.
Еще одна возможная причина, по которой в OpenAI скрывают детали создания GPT-4 — это юридическая ответственность. Языковые модели ИИ обучаются на огромных наборах текстовых данных, при этом извлекают информацию из интернета — источника, который, включает материалы, защищенные авторским правом. Генераторы изображений ИИ, также обучаемые на контенте из интернета, столкнулись с юридическими проблемами именно по этой причине: несколько фирм в настоящее время предъявили иски цифровым художникам и сайту стоковых фотографий Getty Images.
Gpt 3 что умеет
Самый продвинутый алгоритм генерации текста называется GPT-3 — Generative Pre-trained Transformer 3. Ее разработала некоммерческая организация OpenAI из Сан-Франциско. Основатели OpenAI — создатель Tesla и SpaceX Илон Маск, а также бывший президент акселератора YCombinator Сэм Альтман.
Как следует из названия, GPT-3 — третье поколение программы обработки естественного языка от OpenAI. GPT-3 обучили на массиве текстовых данных: алгоритм находил в них закономерности и использовал полученные знания для генерации текста. Например, в пару к слову «огонь» программа с большей вероятностью выберет слово «грузовик» или «тревога», чем «ясный» или «эльфийский».
Отличие GPT-3 от других моделей генерации текста — количество параметров, на которых обучался алгоритм, и широкий диапазон задач, которые он может решать.
Первый алгоритм генерации текста GPT выпустили в 2018 году. Его обучали на 117 миллионах параметров, и это считалось хорошим показателем. В 2019 году появился GPT-2, обученный на 1,5 миллиардах параметров. У GPT-3 — 175 миллиардов параметров.
Разработчики GPT-3 использовали для обучения алгоритма огромный массив данных: всю англоязычную Википедию, а также датасеты с книгами и интернет-страницами. В выборку попали новостные статьи, рецепты и стихи, гайды для программистов и фанфики, религиозные тексты и путеводители по Латинской Америке. Среди данных были и тексты, которые современное общество считает некорретными: например, псевдонаучные учебники и статьи о теориях заговора.
У GPT-3 есть еще одно важное отличие от других алгоритмов генерации текста: нейросети требуется меньше вводных для выполнения новой задачи. Пользователю нужно показать модели пару примеров, чтобы алгоритм понял суть.
Разговор с Тьюрингом и генерация кода: что умеет нейросеть GPT-3
Благодаря большому объему данных и количеству параметров у GPT-3 много вариантов использования. Вот некоторые из них:
Поисковая система, которая умеет отвечать на вопросы — Google для вопросов и ответов. Введите вопрос, а GPT-3 ответит на него и даст ссылку на источник информации.
Чат-бот для разговора с историческими личностями. GPT-3 обучали на большом количестве книг, поэтому алгоритм может говорить от имени философа Бертрана Рассела и объяснять его взгляды. Еще GPT-3 может написать диалог между учеными Аланом Тьюрингом и Клодом Шенноном, в котором будут присутствовать реплики из Гарри Поттера.
Генерация кода на основе текстовых описаний. Опишите словами, что вы хотите получить: например, макет веб-страницы с формой подписки. GPT-3 выдаст соответствующий код.
With GPT-3, I built a layout generator where you just describe any layout you want, and it generates the JSX code for you.
Ответы на медицинские вопросы. Студент-медик из Великобритании использовал GPT-3, чтобы ответить на вопросы медицинского теста. Программа дала правильный ответ и обосновала его.
Стилизация текста. GPT-3 может изменить стиль текста: например, переписать его «юридическим» языком. Один из пользователей привел пример, как с помощью GPT-3 фраза «мой арендодатель не следил за домом» превратилась в «ответчик допустил, чтобы недвижимость пришла в негодность и не соблюдал государственные и местные нормы и правила в области здравоохранения и безопасности».
Генерация музыки. Аккорды для гитары записываются с помощью текста — поэтому тоже могут быть данными для обучения GPT-3. Алгоритм может сгенерировать музыку, если показать ему для примера несколько аккордов.
Guitar tab generated by GPT-3 from a fictional song title and artist. pic.twitter.com/ZTXuEcpMUV
— Amanda Askell (@AmandaAskell) July 16, 2020
Написание художественных текстов. GPT-3 может писать стихи и прозу в стиле известных писателей.
Нейросети и «ошибка выжившего»
Результаты работы GPT-3 впечатляют, но есть и обратная сторона. В соцсетях и статьях мы видим только успешные примеры и рискуем совершить так называемую «ошибку выжившего» — оставить неудачные тексты вне поля зрения.
Ученый Делип Рао писал, что предприниматели из Кремниевой долины рекламируют потенциал GPT-3 и рассказывают только о положительных результатах работы алгоритма. Даже сооснователь OpenAI Сэм Альтман летом назвал ажиотаж вокруг GPT-3 избыточным.
The GPT-3 hype is way too much. It’s impressive (thanks for the nice compliments!) but it still has serious weaknesses and sometimes makes very silly mistakes. AI is going to change the world, but GPT-3 is just a very early glimpse. We have a lot still to figure out.
— Sam Altman (@sama) July 19, 2020
Внимательный анализ текстов GPT-3 показывает, что программа допускает ошибки, которые никогда не сделает человек. Кроме того, алгоритм генерирует много бессмысленных текстов.
Один из пользователей GPT-3 моделировал разговор со Стивом Джобсом. Когда пользователь спросил «Где ты сейчас?», «Джобс» ответил: «Я нахожусь в штаб-квартире Apple в Купертино, Калифорния». Это логичный, но некорректный ответ.
OpenAI — некоммерческая организация, но она планирует в будущем зарабатывать на своих технологиях. Компании уже экспериментируют с API GPT-3 для различных целей; от создания чат-ботов до модерации контента. Как ошибки программы повлияют на коммерциализацию GPT-3? Кому понадобится чат-бот, который оскорбляет клиентов? Смогут ли разработчики использовать написанный программой код или он потребует множества исправлений?
Один из специалистов Google в разговоре с The Verge отметил, что считает GPT-3 алгоритмом, способным решать только тривиальные задачи. Он добавил, что другие нейросети тоже справляются с такими задачами и выразил сомнение в возможности OpenAI коммерциализировать GPT-3.
Специалист в области искусственного интеллекта Джулиан Тогелиус сравнил GPT-3 с умным студентом, который не прочитал материал и пытается обмануть преподавателя на экзамене. «Он соединяет в одном рассказе общеизвестные факты, полуправду и ложь — и повествование выглядит убедительно», — говорит Тогелиус.
Еще одна актуальная проблема алгоритмов генерации текста — создание оскорбительного контента. Директор по искусственному интеллекту в Nvidia Анима Анандкумар отмечает, что некоторые модели обработки естественного языка в том числе обучались на данных форума Reddit — и в итоге создавали «шокирующе предвзятый» текст. Так, алгоритм GPT-2 генерировал сексистские и расистские фразы.
Похожие опасения выражает и глава отдела искусственного интеллекта в Facebook Джером Пезенти. Он предложил OpenAI быть осторожнее с внедрением программы. Сэм Альтман ответил ему, что GPT-3 еще не готова к полноценному запуску, а OpenAI добавила в бета-версию программы фильтр токсичности.
Перспективы алгоритмов генерации текста
В то же время, специалисты в области машинного обучения указывают, что ошибки и предвзятость — не вина алгоритма.
GPT-3 учится на данных и воспроизводит предубеждения и стереотипы из текстов, созданных людьми. Алгоритм генерации текста не умеет мыслить и не может оценить контент с точки зрения человека.
Отсутствие контроля человека позволило масштабировать алгоритм обработки естественного языка, иначе работа потребовала бы огромных ресурсов. Но без этого контроля система пока не может отделить токсичные сообщения от приемлемых.
Среди исследователей нет единого мнения, как дальше будут развиваться алгоритмы генерации текста. Некоторые считают, что мы приближаемся к пределу возможностей языковых моделей.
Если OpenAI смог увеличить размер модели GPT в сто раз за год, насколько большим должен быть GPT-N, чтобы стать таким же надежным, как человек? Сколько данных потребуется, чтобы ошибки стало трудно обнаружить или они полностью исчезли?
Другие говорят, что еще есть возможности для улучшения. Они считают, что количество данных и объем вычислительных мощностей будут расти — и модели, которые появятся после GPT-3, будут еще умнее.
Писатель и исследователь Гверн Бранверн считает, что многие ошибки в выдаче GPT-3 можно исправить, если дать программе правильные подсказки. Он приводит пример ошибки GPT-3: алгоритм спросили, что тяжелее — тостер или карандаш. Ответ GPT-3: «Карандаш тяжелее тостера». По словам Бранвена, алгоритм даст правильный ответ, если перед вопросом получит определенные подсказки: например, что чайник тяжелее кошки, а океан тяжелее пыли.
У GPT-3 есть правильные ответы — надо только знать, где искать, заключает Бранвен.
Фото на обложке: Panuwatccn / Shutterstock
- Искусственный интеллект
- GPT-3
- Машинное обучение
- Технологии
Gpt 3 что умеет
Алгоритм GPT-3 от компании OpenAI умеет писать почти неотличимые от созданных человеком тексты. Что это значит для будущего человечества?
Алгоритм GPT-3 от компании OpenAI умеет писать почти неотличимые от созданных человеком тексты. Что это значит для будущего человечества?

Текст: Сергей Жучков, основатель ProgKids
Кадр: из фильма «Из машины» (Ex Machina, 2014)
В конце 1940-х годов математику Ричарду Хаммингу, который работал в Лос-Аламосе , приходилось убеждать начальство в необходимости покупки компьютеров. Он буквально проявлял чудеса изобретательности для этого. Например, шантажировал коллег, что перестанет помогать им с расчётами, если они не будут включать в соавторы своих исследований программистов. Когда накопилось значительное количество соавторов-программистов, он предъявил начальству перечень статей со словами: «Вот видите, насколько это полезно».
Хамминг — один из немногих, кто находился в эпицентре новой индустрии. В 1950-х годах 9 из 10 исследований проводились в лабораториях, и только одно — с применением компьютера. Хамминг предсказал, что в будущем будет наоборот: 9 из 10 будет проводиться на компьютерах. И это действительно произошло, причём гораздо быстрее, чем он предполагал.
На что способен алгоритм GPT-3
Пример с развитием компьютеров показывает, как легко недооценить важность происходящего в лабораториях и головах исследователей. Лучшие умы того времени были настолько погружены в существующую реальность, что их приходилось буквально силой заставлять заглянуть в будущее.
Сегодня мы видим, как искусственный интеллект проникает в нашу жизнь. Когда вы разговариваете со своими часами или колонкой «Алиса» — вы разговариваете с ИИ. Когда разблокируете телефон при помощи FaceID или заказываете такси — снова взаимодействуете с ИИ.
Пока большинство сценариев взаимодействия выглядят так: активное действие человека — ответ ИИ. Лишь пару лет назад мы встретились с активными роботами. Вы могли познакомиться с ними, когда раздавался звонок телефона и хорошо поставленный голос предлагал что-нибудь купить. Такие роботы работали эффектно, но имели существенный недостаток. Они были не слишком умны. Вы могли понять, что говорите с неживым творением: оно в точности повторяло фразы и не всегда понимало вопросы.
Но похоже, мы станем свидетелями нового этапа, когда ИИ начнёт активно инициировать взаимодействие не только с отдельно взятым человеком, но и с целыми группами людей. И это становится возможным благодаря технологии GPT-3 — алгоритму компании OpenAI.
Главная фишка алгоритма — генерация текста. Модель фантастически хорошо умеет писать тексты, похожие на написанные человеком. Издание Guardian даже опубликовало статью, полностью написанную этим алгоритмом.
Основы того, что в 2020 году стало GPT-3, заложил ещё в середине XX века создатель теории информации Клод Шеннон. Он показал, что язык человека избыточен и что появление слов в тексте и речи можно предсказать.
Шеннон брал книгу, находил произвольное слово на странице и записывал его в тетрадь. Затем он запоминал слово, следующее за записанным, и находил его на другой странице. После чего записывал слово, следующее после только что найденного. Получался вполне связный текст, который мог бы написать человек.
GPT-3 и его аналоги действуют похожим, но, конечно же, гораздо более сложным образом. По сути, алгоритмы генерируют набор случайных предложений, которые очень похожи на настоящую речь.
Прогресс не для всех
OpenAI выпустила GPT-3 летом 2020 года. Сначала компания давала доступ ограниченному числу компаний и пользователей, поэтому всю мощь могли оценить только продвинутые инженеры в области ИИ. В OpenAI опасались, что создали инструмент для промышленного производства фейковых новостей. Например, в пресс-релизе по поводу выпуска предыдущей версии алгоритма GPT2 компания выразила обеспокоенность тем, что алгоритм могут использовать для пропаганды превосходства белой расы.
Технологическая тусовка стала возмущаться закрытостью компании. Ситуацию усугубила сделка OpenAI c Microsoft, по условиям которой IT-гигант получил эксклюзивный доступ к исходному коду алгоритма в обмен на инвестиции в размере $1 млрд. Когда об эксклюзиве стало известно, с критикой выступили серьёзные издания о технологиях, а в интернете стали шутить, что компанию нужно переименовать в CloseAI. Даже сооснователь OpenAI Илон Маск не выдержал и осудил закрытие доступа и передачу эксклюзива.
Если решение не давать широкий доступ всем желающим, похоже, продиктовано этическими соображениями, то эксклюзив для Microsoft — исключительно коммерческое решение.
Изначально Илон Маск, экс-глава Y Combinator Сэм Альтман и другие инвесторы вложили в OpenAI $1 млрд. Большая сумма для всего мира, но не для Кремниевой Долины с её ценами на недвижимость и зарплатами. Поэтому, возможно, у OpenAI банально кончились деньги. И естественный рефлекс СЕО в таком случае — спасти компанию. Так что предложение от Microsoft пришлось как раз вовремя.
Можно примерно прикинуть, сколько компания платит сотрудникам, изучив опыт схожих компаний. The New York Times в 2016 году писала, что OpenAI потратила $11 млн за год, из которых $7 млн — на зарплаты. В то же время, по данным издания, другая ИИ-компания из 400 человек DeepMind тратила почти $140 млн в год на зарплаты (или почти $350 тыс. на человека). А Forbes подсчитал, что в 2018 году DeepMind потратила на зарплаты $483 млн. Учитывая, что зарплаты в Долине только растут, а на конец 2020 года в OpenAI работало 120 человек, расходы компании только на зарплаты должны были составить несколько сотен миллионов долларов за 5 лет существования.
OpenAI создал страшно дорогую машинку, которая весьма эффективно может притворяться человеком. Но до коммерческого использования самых передовых технологий пока далеко. Это показывает драматичная судьба основанной в 2012 году компании DeepMind: она создала алгоритм, который победил человека в настольную игру Го и, казалось, совершит революцию в ИИ. При этом компания была в глубоком убытке.
В 2014 году её за $650 млн купила Google. Так и не найдя коммерческого применения таким продвинутым вещам, как Го и шахматы, компания потихоньку растворилась внутри корпорации. Сейчас её наработки применяются в коммерции, например для синтеза речи или оптимизации показов рекламы.
Первые паровые машины тоже имели всего лишь трёхпроцентный КПД — но им не требовалось столько машинистов с зарплатами под $1 млн в год. Тогда зачем всё это?
Когда появится искусственный мозг
Первоначальная идея OpenAI заключалась в том, чтобы создать общий искусственный интеллект (ОИИ), и пока компания не отказывалась от неё.
Известно, что скорость создания информации человечеством постоянно растёт. ОИИ сможет извлекать знания из информации и не только давать ответы на любые вопросы, но и задавать вопросы самому себе, искать ответы на них — и в итоге создавать новые знания, которые смогут использовать люди.
Если рассматривать появление GPT-3 как шаг на пути человечества к ОИИ, то насколько велик этот шаг и сколько ещё осталось ждать?
Один из способов оценить объём задачи — подсчитать количество синапсов (связей между нейронами) в мозге человека. Профессор MIT Сонг Хан говорит о 400 трлн синапсов в мозге взрослого человека. Исследователь Лекс Фридман приводит другую цифру — 100 трлн.
Внутри GPT-3 175 млрд параметров. Параметр нейронной сети — это количество связей между узлами нейронной сети. Грубо говоря, параметр искусственной нейронной сети примерно соответствует синапсу мозга.
Тогда можно попробовать оценить, сколько нужно средств, чтобы приблизиться к искусственному мозгу. Из расчётов Лекса Фридмана следует, что с технологиями того уровня, который есть сегодня, стоимость создания модели мозга с использованием GPT-3 составит $2,6 млрд .
В мае 2020 года была опубликована работа, которая показала, что эффективность расчета нейронных сетей в 2012—2019 гг. удваивалась каждые 16 месяцев. Опираясь на эту оценку, Фридман показал, что уже в 2032 году рассчитать модель, которая сможет писать тексты, неотличимые от написанных человеком, можно будет всего за $5 млн.
То есть что-то похожее на цифровую модель мозга появится примерно через 10 лет.
С одной стороны, на эту оценку нужно смотреть со здоровым скептицизмом и при этом помнить, что знаменитый закон Мура изначально был просто предсказанием. А придумали его тогда, когда в интегральной микросхеме было только 64 транзистора и произошло всего лишь 6 удвоений производительности. В итоге оказалось, что он верой и правдой служил человечеству больше 40 лет.
С другой стороны, прогресс может идти ещё быстрее. В новейшей модели Google Switch Transformers в 10 раз больше параметров, чем в GPT-3, она почти в 10 раз быстрее и требует в разы меньше вычислительных ресурсов.
Ускорить появление ОИИ также может появление квантового компьютера общего назначения. Пока существующие квантовые компьютеры очень большие и почти бесполезные: у них совсем небольшое количество ячеек памяти (кубитов), при помощи которых производятся вычисления. Однако IBM прогнозирует, что уже в 2023 году число кубитов увеличится на три порядка, что позволит создавать принципиально новые алгоритмы и многократно ускорять решение многих задач — в том числе задач ИИ.
Пока OpenAI и другие исследователи ИИ создают машинки, которые генерируют новую информацию, но не знания. То есть проблема переизбытка информации скорее усугубляется, а не решается. Огромное количество текстов в интернете создаётся с единственной целью — привлечь трафик. Чем больше текстов на сайте — тем выше сайт в поисковой выдаче. Поэтому мы видим такое количество страниц в результатах поиска: сайты соревнуются между собой, создавая новый и новый контент только для того, чтобы его заметил поисковый робот.
Существующая сегодня экономическая модель интернета поощряет создание контента, который потребляют только машины. Не за горами время, когда машины будут создавать контент. Алгоритмы типа GPT-3 будут писать тексты сколь угодно большого объёма, например книги и сценарии фильмов, а алгоритмы генерации изображений позволят снимать их без актеров.
Не очень-то обнадеживающая картина будущего: люди потребляют информацию, созданную машинами специально для них, с единственной целью — потребить ещё информацию.
Но я верю, что человечество мудрее, чем представляется сейчас. Люди поколениями балансировали на грани, но каждый раз находили выход из тупика, который создавали своими же руками.
Одна из задач, которую предстоит решить, — создание автоматизированных систем, работающих в обратном направлении. То есть не путём выявления паттернов сочетания слов и предложений, а извлекая смысл из текста. Такие модели позволят конвертировать информацию в знания, отфильтровывать лишнее и доносить до человека только самое важное.
По этому пути идёт не очень много людей, в первую очередь потому, что пока не придумана модель монетизации. Но есть технологии, которые позволяют работать с информацией принципиально иначе. Например, exploratory search или «разведочный поиск»: уже существует техническая реализация, которая позволяет автоматически создать карту предметной области, дать основные понятия, предоставить сжатую информацию об истории области и ссылки на дополнительные материалы, рассортированные по времени появления. Доступного для всех продукта пока нет — но исходный код есть на GitHub.