Данные для обучения нейросетей в интернете исчерпаны. Об этом заявил генеральный директор Центра искусственного интеллекта МТС (MTS AI) Андрей Калинин.
По его словам, крупные языковые модели достигли переломного момента в развитии. Ранее их качество улучшалось благодаря увеличению размеров моделей и масштабам обучающих выборок. Теперь же текстовые данные, доступные в интернете, практически закончились, а новые создаются с недостаточной скоростью. Это стало значительной проблемой для индустрии, поскольку модели больше не показывают прежнего прироста качества, что заметно, например, на сравнении GPT-5 с его предшественниками, такими как GPT-4 и GPT-3.5.
Эта ситуация вынуждает разработчиков искать новые подходы для обучения. Среди перспективных решений – использование синтетических данных, созданных самими нейросетями, а также активное вовлечение специалистов для проверки и дополнения данных. Кроме того, рассматриваются методы обучения с учётом более сложных и редких источников информации.
Несмотря на эти сложности, языковые модели остаются одним из наиболее востребованных инструментов в сфере искусственного интеллекта. В MTS AI выделяют шесть ключевых направлений их применения. Среди них помощь в создании текстового и программного контента, «умный» поиск информации, чат-боты для взаимодействия с клиентами, сервисы речевой аналитики, инструменты анализа данных и автоматизации HR-процессов. В частности, технологии уже помогают сортировать резюме, проводить первичные интервью и выявлять подозрительное поведение в разговорах с клиентами.
По данным Центра искусственного интеллекта МТС, объём российского рынка продуктов на базе больших языковых моделей в 2023 году составляет 35 миллиардов рублей. К 2028 году этот показатель будет расти в среднем на 25% ежегодно. Глобальный рынок, по оценкам аналитических агентств MarketsandMarkets и BIS Research, в 2024 году достигнет 6,4 миллиарда долларов. Это говорит о стремительном развитии области, несмотря на ограничение текстовых данных.
Генеративный искусственный интеллект также имеет серьёзное влияние на бизнес. Согласно исследованию Gartner, его применение может увеличить выручку компаний на 15,8%, снизить издержки на 15,2% и повысить производительность сотрудников на 22%. Кроме того, технологии разговорного ИИ, по данным IBM Research, способны сократить затраты на обслуживание клиентов до 30% и даже частично заменить специалистов по продажам.
Эксперты IT-World полагают, что несмотря на исчерпание доступных данных в интернете, развитие искусственного интеллекта продолжится, чему будет способствовать использование новых подходов к обучению и расширение областей применения.
Между тем, ученые, которые стояли у истоков создания искусственного интеллекта, предупреждают, что странам необходимо создать глобальную систему надзора для контроля серьезных рисков, которые несет эта технология. Среди противников бесконтрольного развития нейросетей: Йошуа Бенджио (Yoshua Bengio), Эндрю Яо (Andrew Yao) и Джеффри Хинтон (Geoffrey Hinton), все они являются лауреатами премии Тьюринга, которая является свидетельством наивысших достижений в информатике (аналог Нобелевской премии длядругих научных дисциплин).
Читайте также
Круглый стол «Цифровая деградация», организованный в рамках форума «ИТ Диалог 2024» стал местом честного разговора о том, как выживать в мире, где взломы — это вопрос времени. Участники обсуждали, что важнее: безопасность или удобство, когда стоит заменять иностранные решения на российские, а когда лучше подождать, и кто в итоге отвечает, если что-то пошло не так. Были примеры из реальной жизни, споры о том, кто должен делить ответственность, и даже немного философии. Вопросов оказалось больше, чем ответов, но одно ясно точно: безопасникам приходится лавировать между сложными решениями и высокой ответственностью каждый день.