Пора задуматься, пока не поздно: от "мусора" в Интернете тупеет даже ИИ

Wait 5 sec.

Большие языковые модели (LLM), которые используют низкокачественные данные, рассуждают сбивчиво. ИноСМИ теперь в MAX! Подписывайтесь на главное международное >>> Если чат-бот, который работает на основе искусственного интеллекта (ИИ), продолжать обучать на больших объёмах низкокачественной информации (особенно если уповать на информацию, которая пользуется популярностью в соцсетях), то в результате окажется, что такой чат-бот будет хуже искать точную информацию, а его способность к логическому мышлению станет снижаться. Об этих выводах говорится в препринте, опубликованном 15 октября на сайте электронного архива arXiv. В науке о данных постулируется, что качественные данные должны соответствовать определённым критериям, таким как грамматическая правильность и понятность, говорит соавтор исследования Чжанъян Ван (Zhangyang Wang), изучающий генеративный ИИ в Техасском университете в Остине. Однако, по его словам, эти критерии не учитывают различия в качестве входящего контента. Чжанъян Ван с коллегами решили изучить вопрос об особенностях работы больших языковых моделей (LLM), которые обучены на множестве низкокачественных данных (то есть коротких популярных публикациях в социальных сетях или постах, содержащих поверхностную, неглубокую или же претендующую на сенсационность информацию). Ученые изучили, каким образом эти данные влияют на способность LLM-модели делать логические выводы, извлекать информацию из больших объемов входных данных, на этичность ответов, а также индивидуальные черты LLМ-модели. Команда ученых пришла к следующему выводу: LLМ-модели, обученные на данных низкого качества, делают сбои в процессе формирования рассуждений (или вообще игнорируют рассуждения), что приводит к предоставлению неверной информации по запросу. Бывают также следующие ситуации: если такой LLМ-модели предлагался вопрос с несколькими вариантами ответов, то она выбирала неправильный ответ. Кроме того, рассматривался набор данных, в которых качественная информация содержалась вперемешку с неточной. В результате выяснилось, что негативное влияние на процесс формирования рассуждений увеличивается по мере увеличения доли неточных данных. (Заметим, что работа ученых не рецензировалась). Результаты подтверждают давний принцип ИИ — важность качества данных, говорит специалист в области ИИ Мехвиш Насим (Mehwish Nasim) из Университета Западной Австралии в г. Перте. "Ещё до того момента, как люди начали работать с большими языковыми моделями, мы говорили: если вы будете скармливать языковой ИИ-модели мусор, то она и будет выдавать мусор", — добавляет Мехвиш Насим. Мусор на входе — мусор на выходе В ходе исследования Чжанъян Ван с коллегами использовали миллион публикаций, имеющихся в открытом доступе в социальной сети X. При этом использовалась база данных для обучения моделей с открытым исходным кодом: Llama 3 (LLM технологической компании Meta* из г. Менло-Парк, шт. Калифорния) и три версии Qwen, разработанные компанией Alibaba из г. Ханчжоу, Китай. Qwen — это модель, разработанная с акцентом на способность рассуждать (подобно модели R1 от DeepSeek и o1 от OpenAI), то есть она специально предназначена для формирования рассуждений с тем, чтобы предоставлять ответ на запросы пользователя. Однако Llama представляет собой LLМ-модель, настроенную на выполнение определенных инструкций, при этом её способность к рассуждению менее развита. Для того чтобы определить индивидуальные черты LLМ-модели, ученые использовали психологические опросники. Перед тем как модель Llama обучили на некачественных данных, утверждают авторы, она демонстрировала доброжелательность, экстраверсию, добросовестность, открытость и отчасти даже что-то вроде самолюбования. Однако по мере того, как в Llama загружались всё более и более некачественные данные, всё больше стали проступать ее неблаговидные черты, или, как говорилось в одном из опросников, – у LLМ-модели стал проявляться патологический характер. Для того чтобы ИИ LLМ-модели с течением времени могли адаптироваться и стать более качественными, ученые стали прибегать к корректировке с помощью инструкций. Когда же команда ученых попробовала проделать это с моделью Llama, обученной исключительно на неточных, "мусорных" данных, то было установлено, что это лишь отчасти улучшило качество ее работы, равно как и увеличило объем неточных данных, использовавшихся для обучения. Когда ученые пыталась побудить эту LLМ-модель проанализировать и исправить ошибки, она также продолжала делать сбои в процессе формирования рассуждений. А это указывает на необходимость использования иных методов, которые помогли бы снизить степень негативного влияния "мусорных", некачественных данных. Данный вывод показывает: решающее значение для предотвращения деградации интеллекта, которая наблюдается у LLМ-моделей ИИ, имеет качество исходных данных, говорит Стэн Каранасиос (Stan Karanasios), который занимается исследованиями искусственного интеллекта и социальных сетей в Квинслендском университете (Австралия). "Самое важное — тщательно отбирать и фильтровать данные, исключать низкокачественный и любой другой контент, претендующий на сенсационность", — добавляет Каранасиос. По результатам исследования журнал Nature обратился за комментариями к компаниям Meta* и Alibaba. Штаты начинают войну с Россией. В этом случае Китай знает, что делать По словам Мехвиш Насим, необходимо проводить более масштабные исследования с использованием в том числе LLМ-моделей разных размеров, а также патентованных, таких как ChatGPT. Проблема с изучением коммерческих патентованных моделей заключается в том, что ученым приходится за них платить; к тому же, им не разрешается их обучать, говорит Насим. Будущие исследования покажут, можно ли исправить упомянутые выше негативные эффекты, если LLМ-модели обучать на оптимальном множестве качественных данных, добавляет Насим. В прошлом месяце социальная медиаплатформа LinkedIn объявила о том, что с 3 ноября 2025 года она планирует использовать данные и контент пользователей из Великобритании, некоторых стран Европейского Союза и Швейцарии для обучения моделей генеративного искусственного интеллекта. *Запрещенная в России экстремистская организация.