
Proč bylo Freelo včera okolo poledne pomalejší a mohli jste zaznamenat i řízený výpadek
Dostupnost Freela bereme velmi vážně. Máme celou řadu mechanizmů, které nám pomáhají s Freelem plout dlouhé měsíce i roky bez výpadku. Včera okolo oběda jste bohužel mohli zaznamenat pomalejší načítání Freela a ve 13:30 i menší výpadek (2 minuty). Za to se omlouváme. V článku se dozvíte příčinu, ponaučení, opatření a taky pár konkrétních způsobů, nástrojů a aplikací, díky kterým má Freelo vysokou dostupnost.

Co se stalo
- Ve středu 14. 2. 2024 v 11:30 zaznamenáváme pomalejší Freelo.
- Ve 13:00 zjišťujeme příčinu a chystáme restart služeb na serveru.
- Ve 13:30 má Freelo řízený výpadek několik málo minut.
- Příčinou byla chyba v aplikaci, která vygenerovala pomalé dotazy do databáze a následně došlo k zahlcení i jiných systémů.
- Učinili jsme opatření, aby se podobný incident neopakoval.

Jak hlídáme dostupnost
Dostupnost je pro aplikaci, jako je Freelo, velmi důležitá a nic nenecháváme náhodě. Základní metriky a warningy řešíme pomocí Mattermostu (něco jako Slack), Grafany a Prometheusu. Obvykle nejde o nic zásadního, spíše nás služby upozorní včas na blížící se problém.

Akutní problém a nedostupnost hlídáme pomocí monitoringu serverů — Hlidam.to. Ta drží stráž nad aplikací, databází, weby, blogem, expirací certifikátů. Hlídá i to, aby věci, které mají být nedostupné, takové skutečně byly — tím se myslí třeba naše interní systémy jako fakturační systém. Ten musí být dostupný pouze z naší VPN. Takže vlastně proaktivně hlídáme jejich nedostupnost.
Když je problém, tak se nám odesílají e-maily a SMS na několik telefonních čísel.
Když do podpalubí hodně teče, tak Hlidam.to zavolá několika lidem. Ti mají doma permanentně na nabíječce elegantní aligátory s velmi hlasitým a otravným zvoněním, které v noci opravdu slyšet nechcete.

Monitoring z celého světa
Pro stoprocentní jistotu celosvětové dostupnosti používáme ještě službu Uptimerobot, kde máme základní kontrolu dostupnosti aplikace.
Zpomalení a výpadek nás moc mrzí a omlouváme se za něj všem námořníkům a kapitánům. Soustavně se snažíme o to, aby plavba vašich firem a týmů ve Freelu byla klidná a bez zbytečných uvíznutí na mělčině.
Děkujeme, že plujete s námi.