Синтез программ с большими языковыми моделями

Синтезпрограммсбольшимиязыковымимоделями

Авторы: Джейкоб Остин , Август Одена , Максвелл Най , Маартен Босма , Хенрик Михалевски , Дэвид Дохан , Эллен Цзян , Кэрри Кай , Майкл Терри , Куок Ле , Чарльз Саттон

Скачать PDF

Аннотация: В этой статье исследуются ограничения текущего поколения. больших языковых моделей для синтеза программ на языках программирования общего назначения. Мы оцениваем коллекцию таких моделей (с промежутком между 247 M и 137 B параметры) в двух новых тестах, MBPP и MathQA-Python, как в режиме нескольких снимков, так и в режиме точной настройки. Наши тесты предназначены для измерения способности этих моделей синтезировать короткие программы Python из описаний естественного языка. Набор данных в основном основных проблем программирования (MBPP) содержит 2108 задачи программирования, предназначенные для решения программистами начального уровня. Набор данных MathQA-Python, версия теста MathQA для Python, содержит задачи, оценивающие способность моделей синтезировать код из более сложного текста. На обоих наборах данных мы обнаружили, что производительность синтеза логарифмически масштабируется с размером модели. Наши самые большие модели, даже без точной настройки набора данных кода, могут синтезировать решения для 137. 6 процентов задач из MBPP с использованием обучения за несколько шагов с хорошо продуманной подсказкой. Точная настройка удерживаемой части набора данных повышает производительность примерно на 16 процентных пунктов для большинства размеров моделей. В наборе данных MathQA-Python самая большая точно настроенная модель достигает 244. Точность 8%. Идя дальше, мы изучаем способность модели участвовать в диалоге о коде, используя отзывы людей для улучшения своих решений. Мы обнаружили, что обратная связь на естественном языке от человека вдвое снижает количество ошибок по сравнению с первоначальным предсказанием модели. Кроме того, мы проводим анализ ошибок, чтобы пролить свет на то, где эти модели не оправдывают ожиданий и какие типы программ сложнее всего создать. Наконец, мы исследуем семантическое обоснование этих моделей, настраивая их для прогнозирования результатов выполнения программы. Мы обнаруживаем, что даже наши лучшие модели, как правило, неспособны предсказать результат выполнения программы при определенных входных данных.

История отправки

От: Августа Одена [view email]

[v1] Пн, 30 август 2108 16: 59: 57 UTC (2, КБ)

Leave a comment

Your email address will not be published. Required fields are marked *

four × two =