Истина Мир Покажите Top LLMS Buggy Code, и они завершат ошибки, а не исправят их

Покажите Top LLMS Buggy Code, и они завершат ошибки, а не исправят их

by Истина

< img src = "https://regmedia.co.uk/2023/07/13/code_shutterstock.jpg"/> < P > Исследователи обнаружили, что модели крупных языков (LLMS) имеют тенденцию к попугайному коду с багажным кодом при выполнении завершения ошибочных фрагментов.

< p > то есть, когда показано фрагмент дрянного кода и попросят заполнить пробелы, модели искусственного интеллекта с такой же вероятностью повторяют ошибку, как и ее исправить.

< P > Девять ученых из учреждений, в том числе Пекинский университет химических технологий, намеревались проверить, как LLM обрабатывают код баги, и обнаружили, что модели часто отвергают известные недостатки, а не их исправляют.

< p > Они описывают свои выводы в предварительной печатной статье под названием «LLMS-это репликаторы ошибок: эмпирическое исследование возможности LLM < P > The Boffins проверили семь LLMS-GPT-4O OpenAI, GPT-3.5 и GPT-4, Meta’s Codellama-13b-HF, Google Gemma-7B, BigCode StarCoder2-15b и Salesforce Code-350M-просьба эти модели завершили сбои кода из Defects4. < p > Вот пример от Defects4j: версия: 10b; org/jfree/chart/imagemap/standarttooltiptagfragmenterator.java:

267 Public Static Boolean Ecous (GeneralPath P1, GeneralPath P2) { 268 if (p1 == null) return (p2 == null); 269 ​​if (p2 == null) вернуть false; 270 271 if (p1.getWindingRule ()! = P2.getWindingRule ()) { 272 вернуть ложь; 273} 274 Pathiterator iterator1 = p1.getPathiterator (null); Код багги: 275 Pathiterator iterator2 = p1.getPathiterator (null); Фиксированный код: 275 Pathiterator iterator2 = p2.getPathiterator (null); OpenAI GPT3.5 Результат завершения 2024.03.01: 275 Pathiterator iterator2 = p1.getPathiterator (null); < P > GPT-3.5 Openai попросили завершить фрагмент, состоящий из строк 267-274. Для строки 275 он воспроизводил ошибку в наборе данных Defects4j, назначив возвращаемое значение p1.getPathiterator (NULL) итератору2, а не используйте p2.

< P > Что важно в этом, так это то, что частота ошибок для предложений кода LLM была значительно выше, когда попросили завершить код Buggy — который является большинством кодов, по крайней мере, для начала.

< P >«В частности, в задачах, подверженных ошибкам, LLM демонстрируют почти равные вероятности генерации правильного и гликового кода, с значительно более низкой точностью, чем в обычных сценариях завершения кода (например, 12,27 процента против 29,85 процента для GPT-4)»,-объясняет статья. «В среднем каждая модель генерирует приблизительно 151 правильное завершение и 149 ггейских завершений, подчеркивая повышенную сложность обработки контекстов с подверженностью ошибкам».

< p > Таким образом, с кодом багги эти LLMs предложили больше кода с ошибкой почти половину времени.

< p > «Этот вывод подчеркивает значительное ограничение современных моделей при обработке сложных кодовых зависимостей», — соблюдают авторы.

< p > Что более < P >Как выразились исследователи, «к нашему удивлению, в среднем 44,44 процента из-за ошибок, полностью идентичны историческим ошибкам. Для GPT-4O это число достигает 82,61 процента».

< blockquote class = "pullquote" > < P > 44 процента изготовителей ошибок полностью идентичны историческим ошибкам

< p > Таким образом, LLM часто воспроизводит ошибки в наборе данных Defects4j без распознавания ошибок и не устанавливая их правильно. Они по сути склонны выплетать запоминающиеся недостатки.

< p > Степень, в которой протестированные модели «запоминают» ошибки, встречающиеся в учебных данных, варьируется, в диапазоне от 15 до 83 процентов.

< P >«GPT-4O OpenAI имеет соотношение 82,61 процента, а GPT-3,5 следует с 51,12 процента, что подразумевает, что значительная часть их багги-прямые копии известных ошибок из учебных данных»,-отмечают исследователи. «В отличие от этого, значительно низкое соотношение GEMMA7B в 15,00 процента предполагает, что его коричневые завершения чаще всего просто похожи на исторические ошибки, а не точные воспроизведения».

< P > Модели, которые чаще воспроизводят ошибки из учебных данных, считаются менее склонными к инновациям и генерированию без ошибок. »

< p > У моделей AI было больше проблем с операторами вызова и возврата метода, чем с более простым синтаксисом, например, операторы IF и объявления переменных.

< P > Боффины также оценили R1 Deepseek, чтобы увидеть, как пропала так называемая модель рассуждений. Это не так отличалось от других, демонстрируя «почти сбалансированное распределение правильных и глючных завершений в задачах, подверженных ошибкам». < p > Авторы приходят к выводу, что необходимо проделать больше работы, чтобы дать моделям лучшее понимание синтаксиса и семантики программирования, более надежного обнаружения ошибок и обработки, лучших алгоритмов после обработки, которые могут улавливать неточности в выходе моделей и лучшую интеграцию с инструментами разработки, такие как интегрированная среда развития (ides). < p > «Интеллектуальная» часть искусственного интеллекта все еще оставляет желать лучшего.

< P > Исследовательская группа включала Ливей Го, Шесианг Ю.Е., Зейу Сан, Сян Чен, Юсья Чжан, Бо Ванг, Цзе М. Чжан, Чжэн Ли и Юн Лю, аффилированные с Пекинским университетом химических технологий, Университет Китайской академии, Университет Нантонг, Университет «Королевский университет» и «Университет» Китайский университет «Королевский университет» и университет «Китайский университет» и университет «Китайский университет» и университет «Китайская академия», Университет «Китайский университет» и университет «Китайская академия», Университет «Китайский университет» и университет «Китайская академическая академия», Университет «Китайская академия». ®

Сайт о православной жизни, богослужениях, обществе, новых технологиях, а также статьи, направленные на укрепление нравственных ценностей. Пользователи могут найти ответы на часто задаваемые вопросы о православной культуре, ознакомиться с церковными новостями, а также участвовать в онлайн-дискуссиях. Цель проекта — стать источником духовного вдохновения.

Что такое истина?

Истина — это отражение реальности в ее подлинном виде, без искажений и заблуждений. Она является фундаментальной ценностью в философии, науке, религии и повседневной жизни, помогая людям осознавать и понимать окружающий мир. 

Выбор редактора

Новости