JVM profiling in Kubernetes

Инструмент	Примечание
JFR (Java Fligth Recorder)
SJK (Swiss Java Knife)
AsyncProfiler
JVisualVM	в режиме семплирования
JProfiler	в режиме семплирования
YourKit Java Profiler	в режиме семплирования

Метод	Семплы
HashMap.putVal	4
HashMap.put	5
HttpContext.setAttribute:75	7
CoreContext.setAttribute:105	7
Impl.setupClient:1050	8
Impl.sample:613	8
Proxy.sample:613	8
...	9

Метод	Семплы
HashMap.putVal	49%
HashMap.put	57%
HttpContext.setAttribute:75	77%
CoreContext.setAttribute:105	79%
Impl.setupClient:1050	80%
Impl.sample:613	81%
Proxy.sample:613	81%
...	90%

Средняя длительность для	мсек
HTTP-запрос	100
SQL-запрос	50
Java-метод	10

Средняя длительность для	мсек	частота (в сек)
HTTP-запрос	100
SQL-запрос	50
Java-метод	10
SJK (3 активных потока + 120 спящих)	11	90

Средняя длительность для	мсек	частота (в сек)
HTTP-запрос	100
SQL-запрос	50
Java-метод	10
SJK (3 активных потока + 120 спящих)	11	90

Средняя длительность для	мсек	частота (в сек)
HTTP-запрос	100
SQL-запрос	50
Java-метод	10
SJK (3 активных потока + 120 спящих)	11	90
SJK (3 активных потока + 20 спящих)	3.5	290

Средняя длительность для	мсек	частота (в сек)
SJK (когда было достаточно CPU)	11	90
SJK (нехватка CPU, малый CPU Limit)	143	7

Инструмент	Примечание
JVisualVM	в режиме Startup Profiler
JProfiler	в режиме инструментации
YourKit Java Profiler	в режиме инструментации

Name	OS	Ver	Dev?	Hit
s2i-java	CentOS	8/11	JRE	10M
java-centos-openjdk8-jre	CentOS	8	JRE	100k
java-centos-openjdk8-jdk	CentOS	8	JDK	100k
java-alpine-openjdk8-jre	Alpine	8	JRE	100k
java-alpine-openjdk8-jdk	Alpine	8	JDK	100k
java-alpine-openjdk11-jre	Alpine	11	JRE	100k

	Первое место	Второе место
Операционная систеа	CentOS	Alpine
Версия Java в OpenJDK	8	11
Cредства разработки	JRE (нет dev tools)	JDK (есть dev tools)
Маркировка для профайлеров	linux-x64	linux-musl-x64

	Второе место
Операционная систеа	Alpine
Версия Java в OpenJDK	11
Cредства разработки	JDK (есть dev tools)
Маркировка для профайлеров	linux-musl-x64

# Масштабирование сервисов и их профилирования Микросервисная архитектура является популярной. Kubernetes позволяет запускать множество микросервисов и предоставляет API доступа к ним. Сотни сервисов. С каждым из которых работают разные инженеры. Часто нужно узнать детали работы приложения в контейнере. Нужна трассировка или профилирование. А также последующий анализ результатов. И этим также будут заниматься разные инженеры. Расскажу, как можно сделать процесс профилирования проще. Мастабировать его на все сервисы и всю команду. # Этапы профилирования и стадии масштабирования Для трассировки и профилирования нужно добавить внутрь контейнера специальные инструменты, которых в легковесных контейнерах нет. Часто в контейнерах нет ни JDK, ни утилит профилирования, ни утилит трассировки, ни прав админа, ни доступа к репозиториям пакетов и сети Интернет, чтобы установить недостающие пакеты. Но выполнить профилирование можно: - примонтировать в контейнер каталоги с файлами - изменить параметры запуска JVM - запустить внутри контейнера команды - скачать из контейнера файлы с результами Это повторяемый однообразный процесс, особенно, когда на тестовом стенде работает 100 микросервисов. При этом, это непростой процесс. А его должна уметь выполнять вся команда. Чтобы масштабировать запуск профилирования на всю команду можно: - написать подробную инструкцию - выполнять профилирование по Skype/Zoom/... совместно - автоматизировать процесс с помощью скриптов - организовать запуск профилирования из CI/CD Но потом понадобится анализ результатов профилирования. Анализ становится повторяемым однообразным процессом, особенно, когда на тестовом стенде работает 100 микросервисов, которые нужно регулярно профилировать. Анализ - получение фактов, сравнимых чисел, из результатов профилирования. При этом, это непростой процесс. А его должна уметь выполнять вся команда. Чтобы мастабировать анализ результатов профилирования на всю команду можно: - написать подробные отчеты - выполнять анализ профилирования по Skype/Zoom/... совместно - автоматизировать процесс анализа результатов с помощью скриптов - организовать анализ результатов профилирования из CI/CD А в завершении анализа, бывает нужно сравнить текущие результаты с предыдущими. Чтобы сделать вывод - ускорился метод или нет. И этот этап также нуждается в масштабировании и автоматизации. Таким образом выделяется четыре этапа: 1. Подготовка микросервиса к профилированию 2. Запуск профилирования 3. Анализ результатов 4. Сравнение Каждый из которых проходит четыре стадии: 1. Описание в виде инструкции 2. Совместное выполнение с коллегой 3. Автоматизация процесса с помощью скриптов 4. Возможность запуска скриптов с помощью CI/CD # Технологии автоматизации этапов профилироваия Благодаря Kubernetes и инструменту kubectl, есть единый для всех сервисов способ выполнения первых двух этапов: - Подготовка микросервиса к профилированию - Запуск профилирования Благодаря возможностям инструментов профилирования по запуску в консольном режиме, есть автоматизируемый способ выполнения второго и третьего этапа. - Запуск профилирования - Анализ результатов И если профилирование проводилось для сервисов, работающих при схожей нагрузке, и проводилось схожим образом, то сравнить результаты профилирования можно и скриптом и в Excel и в Grafana: - Сравнение тоже автоматизируется Интересно, как это можно сделать? # Kubernetes, JVM в Docker и kubectl Популярные образы с OpenJDK от fabric8 | Name | OS | Ver | Dev? | Hit | |---|---|---|---|---|---| | [s2i-java](https://hub.docker.com/r/fabric8/s2i-java) | CentOS | 8/11 | JRE | 10M | | [java-centos-openjdk8-jre](https://hub.docker.com/r/fabric8/java-centos-openjdk8-jre) | CentOS | 8 | JRE | 100k | | [java-centos-openjdk8-jdk](https://hub.docker.com/r/fabric8/java-centos-openjdk8-jdk) | CentOS | 8 | JDK | 100k | | [java-alpine-openjdk8-jre](https://hub.docker.com/r/fabric8/java-alpine-openjdk8-jre) | Alpine | 8 | JRE | 100k | | [java-alpine-openjdk8-jdk](https://hub.docker.com/r/fabric8/java-alpine-openjdk8-jdk) | Alpine | 8 | JDK | 100k | | [java-alpine-openjdk11-jre](https://hub.docker.com/r/fabric8/java-alpine-openjdk11-jre) | Alpine | 11 | JRE | 100k | Небольшое разнообразие. Кроме таких JVM также применяется IBM OpenJ9. С помощью kubectl можно: - менять Deployment-файл - монтировать каталоги в контейнер - менять JAVA_OPTIONS - добавлять javaAgent - открывать JMX/RMI-порты - менять другие параметры запуска JVM - копировать файлы в контейнер - получать доступ до сетевых портов контейнера - запускать команды внутри контейнера - копировать файлы из контейнера Это все, что нужно для запуска и получения результатов профилирования. # JVM профайлеры У популярных инструментов и технологий профилирования есть консольный режим запуска: - JDK Flight Recorder c утилитой jcmd или параметрами запуска JVM - SJK с подключением по JMX/RMI или по PID-процесса - AsyncProfiler с утилитой jattach или JVM агентом - JProfiler с утилитой jpenable или JVM агентом - YourKit с утилитой yjp-controller-api-redist.jar и JVM агентом У профайлеров есть разные варианты сбора событий: - JDK Flight Recorder собирает внутренние события JVM - SJK использует семплирование - AsyncProfiler использует семплирование - JProfiler использует и семплирование и инструментацию - YourKit использует и семплирование и инструментацию Выделяется три варианта сбора событий по длительности работы кода: - внутренние события - семплирование - инструментация Инструментация требует значительных накладных расходов, большое приложение может проходить инструментацию, предшествующую началу профилирования от 20 до 60 минут. И приложение значительно замедляется при выполнении профилирования с инструментацией. Таким образом для повседневного профилирования рекомендется использовать подход JDK Flight Recorder со сбором внутренних событий JVM, почти без накладных расходов. И подход с семплированием потоков с небольшими накладными расходами. # Визуальный анализ результатов - Java Mission Control для JFR-файлов - Flame-диаграммы в SJK - Flame-диаграммы в AsyncProfiler - JProfiler GUI и экспорт в HTML в JProfiler - YourKit GUI и экспорт в HTML в YourKit # Анализ и сравнение результатов Также есть программный и консольный режим анализа результатов профилирования, превращения файла с результатами профилирования в числа, записанные в текстовом формате: - Для jfr-файлов от JDK Flight Recorder и AsyncProfiler: - OpenJDK Mission Control Java API для работы с jfr - SJK jfr2json с сохранением в JSON - SJK ssa для allocation и exception с сохранением в TXT и CSV - Для sdt-файлов от SJK: - SJK ssa с сохранением в TXT и CSV - SJK dexp c сохранением в CSV - Для JProfiler: - jpexport с сохранением в XML и CSV - Для YourKit: - консольный экспорт в XML, CSV, TXT Для анализа нужны как визуальные так и числовые результаты профилирования. Чтобы такие результаты получить надо будет запустить консольные команды и скрипты с различными параметрами. Разработкой таких скриптов и предлагаю заняться. # Сравнение результатов Инструменты профилирования позволяют сохранять результат в CSV-формат. А данные в формате CSV удобно сравнивать. Для сравнения результатов достаточно данных: - по активности потоков - по активности прикладных методов То есть сравнение не ищет узкие места, оно показывает измениласть ли длительность работы потоков и методов, и если изменилась, то они стали работать меньше или больше. # Хранение результатов Кроме сбора и анализа результатов возникает задача удобного хранения. Так, чтобы место хранения было общедоступным. Чтобы результаты можно бы было прикрепить к дефекту и отчету. Чтобы структура хранения была удобной. Удобно хранить файловые результаты профилирования в nexus / artifactory / ... - в хранилище артефактов с веб-интерфейсом, которое обычно есть инфраструктуре разработки для JVM. А числовые результаты профилирования в PostgreSQL, InfluxDB и отображать их в Grafana - веб-интерфейс для чистовых данных, которое обучно есть в инфраструктуре тестирования производительности. # Тестовый стенд Соберем тестовый стенд в котором будут: - JVM-приложение SpringBoot в Kubernetes Не в Kubernetes будут работать: - TeamCity Server - TeamCity Agent, с которого будет запускаться профилирование - TeamCity Agent, с которого будет подаваться нагрузка - Nexus для хранения результатов - influxdb - timeseries база данных, используется для хранения клиентских метрик - prometheus - система мониторинга, используется для сбора и хранения метрик cadvisor - grafana - система визуализации, используется для визуализации метрик/логов - loki - система аггрегации логов, используется для хранения логов - vector - коллектор логов, используется для отправки логов в loki - cadvisor - коллектор метрик docker, используется для сбора метрик всего окружения - github.com в качестве git-репозитория # Настройка локального Kubernetes https://kubernetes.io/docs/tasks/tools/ - kubectl - minikube git clone https://github.com/polarnik/JVM-profiling-in-Kubernetes cd ./JVM-profiling-in-Kubernetes/services/ ./setup.sh !! Скрипт при работе удаляет кластер с именем minicube и создает его снова

- Отлдельно заострить внимание на тестовом стенде - Подход к мониторингу на продуктиве несколько другой - особенность работы именно в Kubernetes - как запустить профилирование на 1 поде из 12 - как собрать результаты при падении - почему нужно увеличить память и CPU limit - особенность работы с Alpine - другой способ запуска - На каком этапе мы подключаем профилировщик - реплики - Java должна быть поверх Kubernetes а не наоборот - Как мы профилируем - Масштабирование - часть звучала обще, тут нужна конкретика про Kubernetes, показать примеры, где это нужна почему это нужно на примере облаком, нужны примеры и картинки. - Сколько потоков нужно на два ядра - 2 или 22 - Мы управляем только потоками или ядрами - Вместо состояний потоков - Более явно разобрать пазл - Картинку показывать один раз - глибс, масл - Бизнес-отчет - Какой Scale нужен - Какие Request/Limit нужны - Какой коэффициент масштабирования - Выводы, более явно что людям делать - 3-4 совета - простые и не длинные - что сделать дальше - к чему стремиться - чего бояться - где подкладывать соломку - что будет при переходе от VM к Kubernetes - Как сравнить Zipkin/Jaeger и JVM профайлер - Как собрать цифры с этой системы, 0-й уровень, пусть система сама все скажет

_footer: Изображение <a href="https://pixabay.com/ru/users/nicolaticola-2681567/?utm_source=link-attribution&utm_medium=referral&utm_campaign=image&utm_content=1736209">Nicola Redfern</a> с сайта <a href="https://pixabay.com/ru/?utm_source=link-attribution&utm_medium=referral&utm_campaign=image&utm_content=1736209">Pixabay</a>

Профилирование JVM в Kubernetes : три больших шага

Смирнов Вячеслав, 2021

Исследую и создаю результаты нагрузки в ВТБ, ДБО: vtbbo.ru

И развиваю чат @qa_load

100 JVM работающих друг с другом и базой

На тестовом стенде

Особенности профилирования JVM в Kubernetes

Особенности Kubernetes

Выделение ресурсов для нужд профилирования

Особенности Kubernetes

Как выполнять анализ: от потоков к коду

Анализ

Анализ взаимодействия микросервисов

Анализ

Cтандартизация процесса в большой команде

Масштабирование

Обмен знаниями, передача опыта, автоматизация

Масштабирование

Особенности профилирования JVM в Kubernetes

Особенности Kubernetes

Бизнес-отчет по тестированию производительности

Особенности Kubernetes

Бизнес-отчет по тестированию производительности

Особенности Kubernetes

Увеличиваем количество потоков или реплик?

Особенности Kubernetes

Когда JVM профайлер не нужен и чем его заменить

Особенности Kubernetes

Профилирование в цикле тестирования

Влияние количества потоков сервиса на профилирование

Особенности профайлеров

Если нужно посчитать процент активности

Stack Trace

Соберем тестовый стенд

Результаты замеров длительности

Профилирование надо проводить под нагрузкой

1000 Java-методов * 3 потока * 10 мс / 11 мс = 2 700 семплов

Профилирование надо проводить под нагрузкой

1000 HTTP запросов * 3 потока * 100 мс / 11 мс = 27 000 семплов

Меньше спящих потоков - выше точность

1000 HTTP запросов * 3 потока * 100 мс / 3.5 мс = 85 000 семплов

Меньше спящих потоков - выше точность

Снижаем server.tomcat.max-threads с 100 до 5

Снижаем server.tomcat.max-threads с 100 до 5

Повышается точность профилирования в 3 раза

Снижаем server.tomcat.max-threads с 200 до 5

Повышается точность профилирования в 5 раз

Частота семплирования в SJK (по факту)

Влияние CPU Limit на профилирование

Особенности Kubernetes

Соберем тестовый стенд с малым CPU Limit

Точность профилирования снилизась в 10-13 раз

Сам SJK потребляет до 0,4 ядра при 200 потоках

Задавая лимит CPU помни о накладных расходах

Комфортная интенсивность: раз в 100 мсек

Для большей точности можно собирать метрики дольше

Влияние Memory Limit на профилирование

Особенности Kubernetes

Процент активности, длительность и количество

Их позволяет оценить инструментирующее профилирование

Инструментация на лету расходует HEAP

Инструментация новых объектов расходует CPU

При добавлении JvmAgent для инструментации

Стоит увеличить HEAP Xmx, CPU и Memory Limit

При добавлении JvmAgent для инструментации

Не стоит подавать большую нагрузку, достаточно ручных запросов

Добавление ресурсов при профилировании

Особенности Kubernetes

Может понадобиться +1 CPU, +1 GiB Memory

Limit не задан у профилируемых сервисов

Limit задан не у всех профилируемых сервисов

Limit задан у всех профилируемых сервисов

Может понадобиться +1 CPU, +1 GiB Memory

Подключение профайлера к JVM в Kubernetes

Особенности профайлеров

Удаленное подключение

Опции JMX, RMI для удаленного подключения

Две Pod одного Service так не подключить

Профилирование другого Service — другой порт

Опции JMX, RMI для NodePort

**1000 Java-методов * 3 потока * 10 мс / 11 мс = 2 700 семплов**

**1000 HTTP запросов * 3 потока * 100 мс / 11 мс = 27 000 семплов**

**1000 HTTP запросов * 3 потока * 100 мс / 3.5 мс = 85 000 семплов**