Ресурсы
- Научные статьи и монографии
- Статистические данные
- Нормативно-правовые акты
- Учебная литература
Роли в проекте
ВВЕДЕНИЕ
1. Теоретические основы стохастического градиентного спуска
- 1.1 Основные принципы работы стохастического градиентного спуска
- 1.2 Преимущества и недостатки SGD по сравнению с другими
методами оптимизации
2. Экспериментальное исследование вариаций стохастического
градиентного спуска
- 2.1 Организация экспериментов и методология
- 2.2 Сравнение различных вариаций SGD
3. Практическая реализация и оценка результатов
- 3.1 Разработка алгоритма практической реализации экспериментов
- 3.2 Оценка результатов и анализ влияния вариаций SGD
ЗАКЛЮЧЕНИЕ
СПИСОК ЛИТЕРАТУРЫ
ПРИЛОЖЕНИЯ
ВВЕДЕНИЕ
Стохастический градиентный спуск (SGD) представляет собой метод оптимизации, широко используемый в машинном обучении и глубоком обучении для минимизации функции потерь. Он основан на итеративном обновлении параметров модели с использованием градиента функции потерь, вычисляемого на случайно выбранных подмножествах данных. Этот метод позволяет эффективно обрабатывать большие объемы данных и ускоряет процесс обучения моделей. Вариации SGD, такие как Adam, RMSprop и другие, вводят адаптивные механизмы, которые улучшают сходимость и стабильность обучения. Исследование этих методов включает в себя анализ их математических свойств, влияние на производительность моделей и применение в различных задачах, таких как классификация, регрессия и генерация данных.Введение в стохастический градиентный спуск (SGD) открывает перед нами мир возможностей, которые позволяют моделям глубинного обучения достигать высоких результатов в самых разнообразных задачах. Основная идея SGD заключается в том, что вместо того, чтобы рассчитывать градиент функции потерь на всем наборе данных, что может быть вычислительно затратным, мы используем только небольшие подмножества данных, называемые мини-батчами. Это не только ускоряет процесс обучения, но и добавляет элемент случайности, который может помочь избежать застревания в локальных минимумах. Выявить ключевые особенности стохастического градиентного спуска и его вариаций, а также их влияние на эффективность обучения моделей в глубоких нейронных сетях.Важнейшими аспектами стохастического градиентного спуска (SGD) являются его способность обрабатывать большие объемы данных и адаптивность к различным условиям обучения. Одной из ключевых особенностей является использование мини-батчей, что позволяет не только снизить вычислительные затраты, но и улучшить обобщающую способность модели. Случайный выбор подмножества данных в каждом шаге обновления параметров способствует добавлению шума в процесс оптимизации, что может помочь избежать переобучения и повысить устойчивость модели. Изучение теоретических основ стохастического градиентного спуска и его вариаций, включая основные принципы работы, преимущества и недостатки по сравнению с другими методами оптимизации. Организация экспериментов по сравнению различных вариаций стохастического градиентного спуска (например, SGD, Mini-batch SGD, Adam, RMSprop) с использованием различных наборов данных, с аргументированным описанием выбранной методологии и технологий, а также анализ собранных литературных источников по данной теме. Разработка алгоритма практической реализации экспериментов, включающего этапы подготовки данных, настройки гиперпараметров, обучения моделей и оценки их производительности на тестовых выборках. Оценка результатов проведенных экспериментов с использованием метрик, таких как точность, скорость сходимости и устойчивость моделей, а также анализ влияния различных вариаций SGD на эффективность обучения глубоких нейронных сетей.Введение в стохастический градиентный спуск (SGD) требует глубокого понимания его математических основ и принципов работы. SGD является итеративным методом оптимизации, который обновляет параметры модели на основе градиента функции потерь, вычисленного по случайной подвыборке данных. Это позволяет значительно ускорить процесс обучения, особенно при работе с большими наборами данных, где вычисление градиента на всем объеме данных может быть крайне ресурсоемким.
1. Теоретические основы стохастического градиентного спуска
Теоретические основы стохастического градиентного спуска (SGD) представляют собой важный аспект, который лежит в основе многих современных алгоритмов глубокого обучения. Стохастический градиентный спуск является методом оптимизации, который используется для минимизации функции потерь, и его эффективность во многом зависит от того, как он реализован и настроен.В основе стохастического градиентного спуска лежит идея обновления параметров модели на основе случайно выбранных подмножеств обучающих данных. Это позволяет значительно ускорить процесс обучения по сравнению с классическим градиентным спуском, который использует весь набор данных для каждого шага обновления. В результате, SGD может достигать более быстрых сходимостей, особенно при работе с большими объемами данных.
1.1 Основные принципы работы стохастического градиентного спуска
Стохастический градиентный спуск (SGD) является одним из наиболее эффективных методов оптимизации, используемых в машинном обучении и статистике. Основной принцип его работы заключается в итеративном обновлении параметров модели на основе оценки градиента функции потерь, который вычисляется по случайно выбранной подвыборке данных. Это позволяет значительно ускорить процесс обучения по сравнению с традиционным градиентным спуском, где градиент рассчитывается по всему набору данных.Важным аспектом стохастического градиентного спуска является его способность избегать локальных минимумов благодаря случайному выбору подвыборок. Это создает эффект "шума" в процессе оптимизации, что может помочь модели находить более оптимальные решения. Кроме того, использование малых подвыборок позволяет уменьшить вычислительные затраты и ускорить процесс обучения, что особенно актуально при работе с большими объемами данных. Однако, стоит отметить, что стохастический градиентный спуск также имеет свои недостатки. Например, из-за случайного характера обновлений параметры модели могут колебаться вокруг минимума, что затрудняет сходимость. Для решения этой проблемы разработаны различные методы, такие как адаптивные алгоритмы, которые корректируют скорость обучения в зависимости от истории градиентов, например, алгоритм Adam. Важным элементом успешного применения SGD является правильный выбор гиперпараметров, таких как скорость обучения и размер подвыборки. Эти параметры могут существенно влиять на эффективность и стабильность процесса оптимизации. Поэтому исследование и настройка этих значений являются важными этапами в процессе разработки моделей машинного обучения.Стохастический градиентный спуск (SGD) также может быть улучшен с помощью различных техник регуляризации, которые помогают предотвратить переобучение модели. Одной из таких техник является добавление штрафа за сложность модели, что способствует более обобщающим решениям. Например, L2-регуляризация, известная как ридж-регрессия, добавляет к функции потерь сумму квадратов весов, что помогает контролировать их величину и, следовательно, уменьшает риск переобучения.
1.2 Преимущества и недостатки SGD по сравнению с другими методами
оптимизации Стохастический градиентный спуск (SGD) обладает рядом преимуществ по сравнению с другими методами оптимизации, что делает его популярным выбором в области машинного обучения и глубокого обучения. Одним из основных достоинств SGD является его способность эффективно обрабатывать большие объемы данных. В отличие от классических методов, которые требуют вычисления градиента на всем наборе данных, SGD обновляет параметры модели на основе одного или нескольких примеров, что значительно ускоряет процесс обучения и позволяет работать с большими датасетами, которые не помещаются в память [4].Кроме того, SGD имеет тенденцию избегать локальных минимумов благодаря своей стохастической природе. Поскольку обновления параметров происходят на основе случайных подмножеств данных, это создает шум в процессе оптимизации, что может помочь модели выйти из плато и продолжить обучение в более оптимальных направлениях. Это свойство делает SGD особенно полезным для сложных задач, где наличие множества локальных минимумов может затруднить нахождение глобального решения. Однако, несмотря на свои преимущества, SGD также имеет ряд недостатков. Одним из основных является чувствительность к выбору гиперпараметров, таких как скорость обучения. Неправильно подобранные значения могут привести к медленной сходимости или даже к расходимости алгоритма. Кроме того, стохастический градиентный спуск может демонстрировать высокую вариативность в процессе обучения, что затрудняет мониторинг и оценку его эффективности. Сравнивая SGD с другими методами, такими как Adam или RMSprop, можно отметить, что последние алгоритмы часто обеспечивают более стабильное и быстрое сходимость благодаря адаптивной настройке скорости обучения. Тем не менее, SGD остается важным инструментом, особенно в случаях, когда простота реализации и низкие вычислительные затраты имеют первостепенное значение.В дополнение к вышесказанному, стоит отметить, что SGD хорошо подходит для работы с большими объемами данных, поскольку он обновляет параметры модели на основе небольших подмножеств (батчей), что позволяет значительно сократить время обработки. Это делает его особенно эффективным для задач, связанных с глубоким обучением, где объем данных может быть колоссальным.
2. Экспериментальное
градиентного спуска исследование вариаций стохастического Экспериментальное исследование вариаций стохастического градиентного спуска (SGD) представляет собой ключевой аспект понимания и оптимизации алгоритмов глубокого обучения. Стохастический градиентный спуск, будучи основным методом оптимизации, используется для минимизации функции потерь в нейронных сетях, обеспечивая эффективное обучение моделей на больших объемах данных.В последние годы было предложено множество вариаций SGD, каждая из которых направлена на улучшение сходимости и стабильности обучения. Среди наиболее известных методов можно выделить Momentum, RMSprop, Adam и AdaGrad. Эти алгоритмы вносят различные изменения в процесс обновления весов, что позволяет адаптировать скорость обучения в зависимости от характеристик градиентов.
2.1 Организация экспериментов и методология
Организация экспериментов и методология являются ключевыми аспектами в исследовании вариаций стохастического градиентного спуска. Для достижения надежных и воспроизводимых результатов необходимо тщательно продумать дизайн эксперимента, включая выбор параметров, структуры данных и методов оценки. Важно учитывать, что различные вариации стохастического градиентного спуска могут по-разному влиять на скорость сходимости и качество решения. Например, использование адаптивных методов, таких как Adam или RMSprop, может существенно ускорить процесс обучения, однако требует тщательной настройки гиперпараметров [5].Кроме того, необходимо определить четкие метрики для оценки эффективности различных подходов. Это может включать как количественные показатели, такие как скорость сходимости и ошибка на валидационном наборе, так и качественные аспекты, например, устойчивость алгоритма к шуму в данных. Важным элементом является также репликация экспериментов, что позволяет удостовериться в стабильности полученных результатов и их применимости к различным задачам. При организации экспериментов следует учитывать множество факторов, включая выбор обучающего и тестового наборов данных, а также возможные источники смещения, которые могут повлиять на интерпретацию результатов. Например, использование кросс-валидации может помочь более точно оценить производительность модели, минимизируя влияние случайных факторов. Методология должна включать в себя не только теоретические аспекты, но и практические рекомендации по реализации экспериментов. Это может включать в себя выбор программного обеспечения и инструментов, а также рекомендации по оптимизации вычислительных ресурсов. В конечном итоге, четкая и продуманная организация экспериментов и методология являются залогом успешного исследования и получения значимых результатов в области стохастического градиентного спуска.В дополнение к вышеупомянутым аспектам, важно также учитывать разнообразие гиперпараметров, которые могут существенно повлиять на результаты экспериментов. Например, скорость обучения, размер мини-батча и количество эпох — все эти параметры требуют тщательной настройки, чтобы достичь оптимальной производительности модели. Использование подходов, таких как поиск по сетке или случайный поиск, может помочь в нахождении наилучших значений гиперпараметров.
2.2 Сравнение различных вариаций SGD
В рамках исследования вариаций стохастического градиентного спуска (SGD) важно рассмотреть различные подходы и их влияние на эффективность обучения нейронных сетей. Разные вариации SGD, такие как Momentum, Nesterov Accelerated Gradient и Adam, имеют свои уникальные характеристики, которые могут существенно повлиять на скорость сходимости и качество конечной модели. Например, Momentum добавляет инерцию к обновлениям весов, что позволяет избежать застревания в локальных минимумах, в то время как Nesterov Accelerated Gradient улучшает этот процесс, предоставляя более точные оценки градиента, что позволяет более эффективно корректировать направление обновлений. Adam, в свою очередь, сочетает в себе преимущества адаптивных методов и Momentum, что делает его особенно популярным в практике глубокого обучения. Исследования показывают, что Adam часто превосходит другие методы по скорости сходимости, особенно на сложных задачах, таких как обучение языков и обработка изображений [7]. Однако, несмотря на свои преимущества, Adam может иногда приводить к плохой обобщающей способности модели, что подчеркивает важность понимания теоретических основ и практических аспектов различных подходов к SGD [8]. Сравнение этих вариаций проводится на основе экспериментальных данных, где оцениваются как скорость сходимости, так и качество моделей на различных датасетах. Результаты показывают, что выбор вариации SGD может значительно повлиять на конечные результаты, и поэтому важно тщательно подбирать метод в зависимости от конкретной задачи и характеристик данных.В проведенном исследовании также была проанализирована роль гиперпараметров, таких как скорость обучения и размер батча, в контексте различных вариаций SGD. Эти параметры могут оказывать значительное влияние на эффективность обучения, и их оптимизация является ключевым этапом в процессе настройки моделей. Например, слишком высокая скорость обучения может привести к нестабильности и расходимости, в то время как слишком низкая скорость может замедлить процесс сходимости и привести к затяжным вычислениям. Кроме того, в ходе экспериментов была проведена оценка устойчивости различных методов к шуму в данных. Некоторые вариации SGD, такие как Adam, продемонстрировали большую устойчивость к шуму, что делает их предпочтительными для работы с реальными данными, где присутствуют выбросы и шум. В то же время, более простые методы, такие как стандартный SGD, могут быть чувствительны к таким искажениям, что требует дополнительной обработки данных перед обучением. Также стоит отметить, что в рамках исследования были рассмотрены различные стратегии регуляризации, которые могут быть использованы в сочетании с вариациями SGD для улучшения обобщающей способности моделей. Такие методы, как L2-регуляризация и дроп-аут, помогают предотвратить переобучение, что особенно важно при работе с глубокими нейронными сетями. В заключение, результаты данного исследования подчеркивают, что выбор подходящей вариации стохастического градиентного спуска и оптимизация гиперпараметров являются критически важными для достижения наилучших результатов в обучении нейронных сетей. Будущие исследования могут сосредоточиться на разработке новых методов и подходов, которые будут учитывать специфику различных задач и данных, что позволит еще больше повысить эффективность и надежность моделей глубокого обучения.В ходе исследования также была проведена сравнительная оценка времени обучения различных вариаций SGD. Это позволило выявить, что некоторые алгоритмы, такие как RMSprop и Adam, обеспечивают более быстрое сходимость по сравнению со стандартным SGD, что делает их более предпочтительными для задач с ограниченными временными ресурсами. Однако стоит отметить, что более сложные методы могут требовать большего объема памяти и вычислительных ресурсов, что также следует учитывать при выборе подхода.
3. Практическая реализация и оценка результатов
Практическая реализация стохастического градиентного спуска (SGD) и его вариаций представляет собой ключевой аспект в области глубокого обучения. Основная идея SGD заключается в том, что вместо вычисления градиента функции потерь по всему набору данных, что может быть вычислительно дорого, используется случайно выбранная подвыборка данных, что значительно ускоряет процесс оптимизации.Этот подход позволяет не только сократить время обучения, но и улучшить обобщающую способность модели. В процессе практической реализации SGD важно учитывать несколько факторов, таких как размер батча, скорость обучения и методы регуляризации.
3.1 Разработка алгоритма практической реализации экспериментов
Разработка алгоритма практической реализации экспериментов включает в себя несколько ключевых этапов, каждый из которых направлен на оптимизацию процесса получения и анализа данных. В первую очередь, необходимо определить цель эксперимента и сформулировать гипотезу, что позволит четко нацелиться на нужные результаты. Затем следует выбрать подходящие методы и алгоритмы, которые будут использоваться для обработки данных. В этом контексте стоит обратить внимание на алгоритмы градиентного спуска, которые зарекомендовали себя как эффективные инструменты для оптимизации в задачах машинного обучения [9]. Следующий шаг заключается в создании прототипа алгоритма, который будет включать в себя реализацию выбранных методов. Важно учитывать, что алгоритм должен быть адаптивным и способен обрабатывать большие объемы данных, что делает его применение в условиях реального времени более эффективным. Для этого можно использовать стохастический градиентный спуск, который позволяет значительно ускорить процесс обучения моделей, особенно при работе с большими наборами данных [10]. После реализации алгоритма необходимо провести тестирование его работы на различных наборах данных, что позволит выявить возможные недостатки и оптимизировать параметры. Важно также разработать систему метрик для оценки эффективности алгоритма, что поможет в дальнейшем анализе полученных результатов и их интерпретации. Ключевым аспектом является возможность повторяемости экспериментов, что требует четкой документации всех этапов разработки и реализации алгоритма. В конечном итоге, успешная реализация алгоритма экспериментов позволит не только проверить гипотезу, но и внести вклад в развитие методов анализа данных в соответствующей области.Одним из важных аспектов разработки алгоритма является выбор платформы и инструментов для реализации. Необходимо учитывать, что различные языки программирования и библиотеки могут существенно повлиять на производительность и удобство работы с данными. Например, использование Python с его популярными библиотеками, такими как NumPy и TensorFlow, может значительно упростить процесс разработки и тестирования алгоритмов. Кроме того, стоит обратить внимание на архитектуру системы, в которой будет работать алгоритм. Это включает в себя выбор между локальными вычислениями и облачными решениями, что может повлиять на масштабируемость и доступность ресурсов. Облачные платформы, такие как AWS или Google Cloud, предоставляют мощные инструменты для обработки больших объемов данных и могут быть особенно полезны при работе с распределенными системами. После завершения этапа тестирования и оптимизации алгоритма, важно провести его валидацию на независимых данных. Это необходимо для проверки обобщающей способности модели и уверенности в том, что она будет эффективно работать в реальных условиях. Валидация может включать в себя кросс-валидацию или использование методов бутстрэпа для оценки стабильности результатов. Наконец, результаты экспериментов должны быть представлены в понятной и доступной форме. Это может включать в себя визуализацию данных, создание отчетов и презентаций, которые помогут донести информацию до заинтересованных сторон. Эффективная коммуникация результатов является ключевым элементом в процессе принятия решений и внедрения новых методов в практику. Таким образом, разработка алгоритма практической реализации экспериментов — это комплексный процесс, требующий внимания к деталям на каждом этапе.Важным шагом в разработке алгоритма является также определение метрик для оценки его эффективности. Выбор правильных метрик позволяет не только оценить качество работы алгоритма, но и выявить возможные области для улучшения. Например, в задачах классификации часто используются такие метрики, как точность, полнота и F-мера, в то время как для регрессионных задач могут быть полезны средняя абсолютная ошибка или R-квадрат.
3.2 Оценка результатов и анализ влияния вариаций SGD
Оценка результатов и анализ влияния вариаций стохастического градиентного спуска (SGD) являются ключевыми аспектами в процессе оптимизации моделей машинного обучения. Вариации SGD, такие как мини-пакетный градиентный спуск, позволяют значительно ускорить процесс обучения и улучшить качество модели. При этом важно учитывать, как размер мини-пакета влияет на сходимость алгоритма и его способность к обобщению на новых данных. Исследования показывают, что оптимальный размер мини-пакета может варьироваться в зависимости от конкретной задачи и структуры данных, что подчеркивает необходимость тщательной настройки гиперпараметров [12].В процессе оценки результатов необходимо не только анализировать качество модели, но и проводить сравнительный анализ различных вариаций SGD. Это включает в себя эксперименты с различными размерами мини-пакетов, скоростью обучения и другими гиперпараметрами. Например, применение адаптивных методов, таких как Adam или RMSprop, может существенно изменить динамику обучения и конечные результаты. Кроме того, важно учитывать влияние начальных условий и случайных факторов, которые могут повлиять на итоговую производительность модели. Для этого рекомендуется проводить несколько запусков с различными инициализациями и фиксировать результаты, чтобы получить более полное представление о стабильности и надежности алгоритма. Также следует обратить внимание на метрики, используемые для оценки результатов. Традиционные метрики, такие как точность, полнота и F-мера, могут быть дополнены более сложными показателями, такими как AUC-ROC или логарифмическая потеря, в зависимости от специфики задачи. В заключение, тщательный анализ и оценка влияния различных вариаций SGD на результаты обучения помогут не только улучшить качество модели, но и глубже понять механизмы, лежащие в основе работы алгоритмов оптимизации.Для более глубокого понимания влияния вариаций SGD, важно также учитывать контекст применения модели. Например, в задачах с большим объемом данных или высокой размерностью признаков, такие как обработка изображений или естественного языка, могут быть выявлены уникальные особенности, которые требуют специфических подходов к настройке гиперпараметров.
ЗАКЛЮЧЕНИЕ
В ходе выполнения работы на тему "Стохастический градиентный спуск и его вариации: математическая магия, на которой держится глубокое обучение" были проведены всесторонние исследования, направленные на изучение ключевых особенностей стохастического градиентного спуска (SGD) и его вариаций, а также их влияния на эффективность обучения моделей глубоких нейронных сетей.В процессе работы была достигнута поставленная цель, заключающаяся в выявлении основных характеристик SGD и его вариаций, что позволило глубже понять механизмы, стоящие за оптимизацией нейронных сетей. В первой главе были рассмотрены теоретические основы стохастического градиентного спуска, включая его принципы работы, а также преимущества и недостатки по сравнению с другими методами оптимизации. Это дало возможность сформировать четкое представление о том, как SGD адаптируется к различным условиям обучения и как его использование мини-батчей способствует улучшению обобщающей способности моделей.
Список литературы вынесен в отдельный блок ниже.
- Бутенко А.Ю., Кузнецов В.А. Стохастический градиентный спуск: теория и практика [Электронный ресурс] // Научный журнал "Современные проблемы науки и образования" : сведения, относящиеся к заглавию / ФГБОУ ВО "Кубанский государственный университет". URL: https://www.science-education.ru/ru/article/view?id=30078 (дата обращения: 29.10.2025).
- Kingma D.P., Ba J. Adam: A Method for Stochastic Optimization [Электронный ресурс] // International Conference on Learning Representations, 2015 : сведения, относящиеся к заглавию / OpenReview.net. URL: https://arxiv.org/abs/1412.6980 (дата обращения: 29.10.2025).
- Kingma D.P., Ba J. Adam: A Method for Stochastic Optimization [Электронный ресурс] // arXiv : сведения, относящиеся к заглавию / сведения об ответственности. URL: https://arxiv.org/abs/1412.6980 (дата обращения: 25.10.2025)
- Bottou L. Large-Scale Machine Learning with Stochastic Gradient Descent [Электронный ресурс] // Proceedings of the 19th International Conference on Computational Statistics (COMPSTAT 2010) : сведения, относящиеся к заглавию / сведения об ответственности. URL: https://www.math.uwaterloo.ca/~hwolkowi/mcgill/compstat2010/ (дата обращения: 25.10.2025)
- Ruder S. An Overview of Gradient Descent Optimization Algorithms [Электронный ресурс] // arXiv : сведения, относящиеся к заглавию / сведения об ответственности. URL: https://arxiv.org/abs/1609.04747 (дата обращения: 29.10.2025).
- Zhang Y., Yang Q. A Survey on Multi-Task Learning [Электронный ресурс] // IEEE Transactions on Knowledge and Data Engineering. 2018. Vol. 30, No. 5. С. 919-939. URL: https://ieeexplore.ieee.org/document/8090199 (дата обращения: 29.10.2025).
- Sutskever I., Vinyals O., Le Q.V. Sequence to Sequence Learning with Neural Networks [Электронный ресурс] // Advances in Neural Information Processing Systems : сведения, относящиеся к заглавию / Neural Information Processing Systems Foundation. URL: https://arxiv.org/abs/1409.3215 (дата обращения: 29.10.2025).
- Zhang C., Bengio S., Hardt M., Recht B., Vinyals O. Understanding Deep Learning Requires Rethinking Generalization [Электронный ресурс] // International Conference on Learning Representations, 2017 : сведения, относящиеся к заглавию / OpenReview.net. URL: https://arxiv.org/abs/1611.03530 (дата обращения: 29.10.2025).
- Ruder S. An Overview of Gradient Descent Optimization Algorithms [Электронный ресурс] // arXiv : сведения, относящиеся к заглавию / сведения об ответственности. URL: https://arxiv.org/abs/1609.04747 (дата обращения: 29.10.2025).
- Bottou L. Large-Scale Machine Learning with Stochastic Gradient Descent [Электронный ресурс] // Proceedings of the 19th International Conference on Computational Statistics (COMPSTAT 2010) : сведения, относящиеся к заглавию / сведения об ответственности. URL: https://www.math.uwaterloo.ca/~hwolkowi/mcgill/compstat2010/ (дата обращения: 29.10.2025).
- LeCun Y., Bengio Y., Haffner P. Gradient-Based Learning Applied to Document Recognition [Электронный ресурс] // Proceedings of the IEEE. 1998. Vol. 86, No. 11. С. 2278-2324. URL: https://ieeexplore.ieee.org/document/726791 (дата обращения: 29.10.2025).
- Ghadimi S., Lan G. Mini-Batch Stochastic Gradient Descent with Optimal Sample Size [Электронный ресурс] // SIAM Journal on Optimization. 2013. Vol. 23, No. 4. С. 2026-2049. URL: https://epubs.siam.org/doi/abs/10.1137/120892648 (дата обращения: 29.10.2025).