Microsoft Lumos вече е с отворен код, позволяващ мониторинг на показателите на уеб приложенията и бързо откриване на аномалии чрез премахване на фалшиви положителни резултати

Microsoft / Microsoft Lumos вече е с отворен код, позволяващ мониторинг на показателите на уеб приложенията и бързо откриване на аномалии чрез премахване на фалшиви положителни резултати 3 минути четене

Microsoft



Microsoft отвори достъп до ‘Lumos’, мощна библиотека на Python за автоматично откриване и диагностика на метрични регресии в приложения в „уеб мащаб“. Съобщава се, че библиотеката е била много активна в Microsoft Teams и Skype. По същество, силно мощен и интелигентен „детектор на аномалии“ вече е с отворен код и е достъпен за уеб разработчиците, за да открива и адресира регресии в ключови показатели за производителност, като същевременно почти елиминира по-голямата част от фалшивите положителни резултати.

Microsoft Lumos вече е с отворен код. Той се използва активно в избрани продукти на Microsoft и сега ще бъде достъпен за общата общност за разработка на уеб и приложения. Съобщава се, че библиотеката позволява на инженерите да откриват стотици промени в показателите и да отхвърлят хиляди фалшиви аларми, изведени от аномални детектори.



Lumos намалява честотата на фалшиво-положителните сигнали с над 90 процента, твърди Microsoft:

Lumos е нова методология, която включва съществуващи, специфични за домейна детектори на аномалии. Microsoft обаче гарантира, че библиотеката на Python може да намали процента на фалшиво положително предупреждение с над 90 процента. С други думи, разработчиците вече могат уверено да се справят с постоянни проблеми, вместо с периодични, които не са имали дългосрочен вреден ефект.



Здравото състояние на онлайн услугите обикновено се наблюдава чрез проследяване на показателите за ключови показатели за ефективност (KPI) във времето. Инженерите, провеждащи „Регресионен анализ“, изискват много време и ресурси, за да премахнат проблеми, които могат да бъдат показателни за големи проблеми. Тези проблеми могат да доведат до увеличаване на оперативните разходи и дори загуба на потребители, ако не бъдат разгледани.



Излишно е да добавям, че проследяването на основната причина за всяка регресия на KPI отнема много време. Освен това екипите често прекарват много време в анализиране на проблемите, само за да установят, че те са просто аномалия. Тук е полезен Microsoft Lumos. Библиотеката на Python елиминира процеса на установяване дали промяната се дължи на промяна в популацията или актуализация на продукта, като предоставя приоритетен списък на най-важните променливи при обяснение на промените в метричната стойност.



Microsoft Lumos също така служи на по-широката цел да разбере разликата в метриката между всеки два набора от данни. Интересното е, че платформата включва „пристрастие“ и чрез сравняване на набора от данни за контрол и лечение, като същевременно остава агностичен към компонента на времевия ред, Lumos може да изследва аномалии.

Как работи Microsoft Lumos?

Microsoft Lumos работи с принципите на A / B тестване, за да сравнява двойки набори от данни. Библиотеката на Python започва с проверка дали регресията в метриката между наборите от данни е статистически значима. След това следва проверка на пристрастието на популацията и нормализиране на пристрастията, за да се отчетат всички промени в популацията между двата набора от данни. Lumos решава, че проблемът не си струва да се преследва, ако в метриката няма статистически значима регресия. Ако обаче делтата в метриката е статистически значима, Lumos маркира характеристиките и ги класира според приноса им към делтата в целевата метрика.

Библиотеката Lumos Python служи като основен инструмент за мониторинг на сценарии на стотици показатели. Разработчиците и екипите, които извършват анализ на ефективността, могат да наблюдават и работят по надеждността на разговорите, срещите и услугите за комутируема телефонна мрежа (PSTN) в Microsoft. Библиотеката работи на Azure Databricks, базираната на Apache искра услуга за анализ на големи данни на компанията. Той е конфигуриран да работи с множество задачи, които са подредени според приоритет, сложност и тип показатели. Работите се изпълняват асинхронно. Това означава, че ако системата открие аномалия, се задейства работен процес на Lumos и след това библиотеката интелигентно анализира и проверява дали аномалията си заслужава да бъде преследвана и адресирана.

Microsoft отбеляза, че Lumos не е гарантирано да улови всички регресии в услугите. Освен това услугата ще изисква голям брой набори от данни, за да предложи надеждна информация. Компанията планира да включи непрекъснат анализ на показателите, да извърши по-добро класиране на характеристиките и да въведе и клъстериране на характеристики. Тези стъпки трябва да се справят с основното предизвикателство на мултиколинеарността при класирането на характеристиките.

Етикети Microsoft