Тип публикации: доклад, тезисы доклада, статья из сборника материалов конференций
Конференция: ИТ. Наука. Креатив; Омск; Омск
Год издания: 2025
Ключевые слова: генерация изображений, диффузионные вероятностные модели, генеративные модели, image generation, diffusion probabilistic models, generative models
Аннотация: Диффузионные вероятностные модели произвели настоящую революцию в сфере генерации высококачественных изображений благодаря своей способности масштабироваться в процессе обучения. Однако, несмотря на все их преимущества, высокая вычислительная стоимость генерации каждого изображения остается существенным ограничением для применения Показать полностьюдиффузионных моделей на практике. Данная работа сосредоточена на исследовании влияния начального шума на качество генерации изображений с использованием диффузионных моделей. В ходе работы был выполнен сравнительный анализ метрик CLIP, ImageReward и BRISQUE для различных значений начального шума, а также сопоставлено влияние, оказываемое текстовым запросом и выбором начального шума, на результаты генерации диффузионной вероятностной модели. Помимо этого, был выполнен кластерный анализ распределений оценок начальных шумов и различных текстовых промптов. Полученные результаты демонстрируют, что выбор начального шума оказывает статистически значимое влияние на качество генерации, несмотря на меньшую степень корреляции с оценкой по сравнению с текстовыми промптами, что открывает перспективы для вычислительно эффективной оптимизации диффузионных вероятностных моделей, за счет выбора начального шума. Diffusion probabilistic models have revolutionized the generation of high-quality images thanks to their scalability through increased data volumes, computational resources, and model sizes. However, despite all their advantages, the high computational cost of generating each image remains a significant limitation for the practical use of diffusion models. This work focuses on studying the impact of the initial noise on image generation quality using diffusion models. During the study, a comparative analysis of the CLIP, ImageReward, and BRISQUE metrics was performed for different initial noise values, and the influence of both text prompts and the choice of initial noise on the results of the diffusion probabilistic model was also compared. In addition, a cluster analysis of the distributions of initial noise scores and various text prompts was carried out. The results obtained demonstrate that the choice of initial noise has a statistically significant impact on generation quality, despite a lower degree of correlation with the score compared to text prompts, which opens up prospects for computationally efficient optimization of diffusion probabilistic models by selecting the initial noise.
Журнал: ИТ. Наука. Креатив
Номера страниц: 376-387
Место издания: Омск