< img src = "https://regmedia.co.uk/2023/07/13/code_shutterstock.jpg"/> < P > Исследователи обнаружили, что модели крупных языков (LLMS) имеют тенденцию к попугайному коду с багажным кодом при выполнении завершения ошибочных фрагментов.
< p > то есть, когда показано фрагмент дрянного кода и попросят заполнить пробелы, модели искусственного интеллекта с такой же вероятностью повторяют ошибку, как и ее исправить.
< P > Девять ученых из учреждений, в том числе Пекинский университет химических технологий, намеревались проверить, как LLM обрабатывают код баги, и обнаружили, что модели часто отвергают известные недостатки, а не их исправляют.
< p > Они описывают свои выводы в предварительной печатной статье под названием «LLMS-это репликаторы ошибок: эмпирическое исследование возможности LLM < P > The Boffins проверили семь LLMS-GPT-4O OpenAI, GPT-3.5 и GPT-4, Meta’s Codellama-13b-HF, Google Gemma-7B, BigCode StarCoder2-15b и Salesforce Code-350M-просьба эти модели завершили сбои кода из Defects4. < p > Вот пример от Defects4j: версия: 10b; org/jfree/chart/imagemap/standarttooltiptagfragmenterator.java:267 Public Static Boolean Ecous (GeneralPath P1, GeneralPath P2) { 268 if (p1 == null) return (p2 == null); 269 if (p2 == null) вернуть false; 270 271 if (p1.getWindingRule ()! = P2.getWindingRule ()) { 272 вернуть ложь; 273} 274 Pathiterator iterator1 = p1.getPathiterator (null); Код багги: 275 Pathiterator iterator2 = p1.getPathiterator (null); Фиксированный код: 275 Pathiterator iterator2 = p2.getPathiterator (null); OpenAI GPT3.5 Результат завершения 2024.03.01: 275 Pathiterator iterator2 = p1.getPathiterator (null); < P > GPT-3.5 Openai попросили завершить фрагмент, состоящий из строк 267-274. Для строки 275 он воспроизводил ошибку в наборе данных Defects4j, назначив возвращаемое значение p1.getPathiterator (NULL) итератору2, а не используйте p2.
< P > Что важно в этом, так это то, что частота ошибок для предложений кода LLM была значительно выше, когда попросили завершить код Buggy — который является большинством кодов, по крайней мере, для начала.
< P >«В частности, в задачах, подверженных ошибкам, LLM демонстрируют почти равные вероятности генерации правильного и гликового кода, с значительно более низкой точностью, чем в обычных сценариях завершения кода (например, 12,27 процента против 29,85 процента для GPT-4)»,-объясняет статья. «В среднем каждая модель генерирует приблизительно 151 правильное завершение и 149 ггейских завершений, подчеркивая повышенную сложность обработки контекстов с подверженностью ошибкам».
< p > Таким образом, с кодом багги эти LLMs предложили больше кода с ошибкой почти половину времени.< p > «Этот вывод подчеркивает значительное ограничение современных моделей при обработке сложных кодовых зависимостей», — соблюдают авторы.
< p > Что более < P >Как выразились исследователи, «к нашему удивлению, в среднем 44,44 процента из-за ошибок, полностью идентичны историческим ошибкам. Для GPT-4O это число достигает 82,61 процента». < blockquote class = "pullquote" > < P > 44 процента изготовителей ошибок полностью идентичны историческим ошибкам< p > Таким образом, LLM часто воспроизводит ошибки в наборе данных Defects4j без распознавания ошибок и не устанавливая их правильно. Они по сути склонны выплетать запоминающиеся недостатки.
< p > Степень, в которой протестированные модели «запоминают» ошибки, встречающиеся в учебных данных, варьируется, в диапазоне от 15 до 83 процентов.
< P >«GPT-4O OpenAI имеет соотношение 82,61 процента, а GPT-3,5 следует с 51,12 процента, что подразумевает, что значительная часть их багги-прямые копии известных ошибок из учебных данных»,-отмечают исследователи. «В отличие от этого, значительно низкое соотношение GEMMA7B в 15,00 процента предполагает, что его коричневые завершения чаще всего просто похожи на исторические ошибки, а не точные воспроизведения».
< P > Модели, которые чаще воспроизводят ошибки из учебных данных, считаются менее склонными к инновациям и генерированию без ошибок. » < p > У моделей AI было больше проблем с операторами вызова и возврата метода, чем с более простым синтаксисом, например, операторы IF и объявления переменных. < P > Боффины также оценили R1 Deepseek, чтобы увидеть, как пропала так называемая модель рассуждений. Это не так отличалось от других, демонстрируя «почти сбалансированное распределение правильных и глючных завершений в задачах, подверженных ошибкам». < p > Авторы приходят к выводу, что необходимо проделать больше работы, чтобы дать моделям лучшее понимание синтаксиса и семантики программирования, более надежного обнаружения ошибок и обработки, лучших алгоритмов после обработки, которые могут улавливать неточности в выходе моделей и лучшую интеграцию с инструментами разработки, такие как интегрированная среда развития (ides). < p > «Интеллектуальная» часть искусственного интеллекта все еще оставляет желать лучшего.< P > Исследовательская группа включала Ливей Го, Шесианг Ю.Е., Зейу Сан, Сян Чен, Юсья Чжан, Бо Ванг, Цзе М. Чжан, Чжэн Ли и Юн Лю, аффилированные с Пекинским университетом химических технологий, Университет Китайской академии, Университет Нантонг, Университет «Королевский университет» и «Университет» Китайский университет «Королевский университет» и университет «Китайский университет» и университет «Китайский университет» и университет «Китайская академия», Университет «Китайский университет» и университет «Китайская академия», Университет «Китайский университет» и университет «Китайская академическая академия», Университет «Китайская академия». ®