Freelo Blog Strojovna Proč bylo Freelo včera okolo poledne pomalejší a mohli jste zaznamenat i řízený výpadek

Proč bylo Freelo včera okolo poledne pomalejší a mohli jste zaznamenat i řízený výpadek

Dostupnost Freela bereme velmi vážně. Máme celou řadu mechanizmů, které nám pomáhají s Freelem plout dlouhé měsíce i roky bez výpadku. Včera okolo oběda jste bohužel mohli zaznamenat pomalejší načítání Freela a ve 13:30 i menší výpadek (2 minuty). Za to se omlouváme. V článku se dozvíte příčinu, ponaučení, opatření a taky pár konkrétních způsobů, nástrojů a aplikací, díky kterým má Freelo vysokou dostupnost.

Záznam dvě minuty dlouhého výpadku ze služby Hlidam.to.

Co se stalo

  1. Ve středu 14. 2. 2024 v 11:30 zaznamenáváme pomalejší Freelo.
  2. Ve 13:00 zjišťujeme příčinu a chystáme restart služeb na serveru.
  3. Ve 13:30 má Freelo řízený výpadek několik málo minut.
  4. Příčinou byla chyba v aplikaci, která vygenerovala pomalé dotazy do databáze a následně došlo k zahlcení i jiných systémů.
  5. Učinili jsme opatření, aby se podobný incident neopakoval.
DevOps, HQ a Support na společném meetu sdílí aktuální informace, aby šlo pružně reagovat na vývoj incidentu a komunikovat směrem ke klientům v případě delšího výpadku.
DevOps, HQ a Support na společném meetu sdílí aktuální informace, aby šlo pružně reagovat na vývoj incidentu a komunikovat směrem ke klientům v případě delšího výpadku.

Jak hlídáme dostupnost

Dostupnost je pro aplikaci, jako je Freelo, velmi důležitá a nic nenecháváme náhodě. Základní metriky a warningy řešíme pomocí Mattermostu (něco jako Slack), Grafany a Prometheusu. Obvykle nejde o nic zásadního, spíše nás služby upozorní včas na blížící se problém.

Výstřižek z aplikace Grafana, která hlídá dostupnost důležitých služeb na serveru.

Akutní problém a nedostupnost hlídáme pomocí monitoringu serverů — Hlidam.to. Ta drží stráž nad aplikací, databází, weby, blogem, expirací certifikátů. Hlídá i to, aby věci, které mají být nedostupné, takové skutečně byly — tím se myslí třeba naše interní systémy jako fakturační systém. Ten musí být dostupný pouze z naší VPN. Takže vlastně proaktivně hlídáme jejich nedostupnost.

Když je problém, tak se nám odesílají e-maily a SMS na několik telefonních čísel.

Když do podpalubí hodně teče, tak Hlidam.to zavolá několika lidem. Ti mají doma permanentně na nabíječce elegantní aligátory s velmi hlasitým a otravným zvoněním, které v noci opravdu slyšet nechcete.

Telefon aligátor, který má několik lidí neustále zapnutý a jediný jeho účel je ohlašování problému s aplikací Freelo.

Monitoring z celého světa

Pro stoprocentní jistotu celosvětové dostupnosti používáme ještě službu Uptimerobot, kde máme základní kontrolu dostupnosti aplikace.

Zpomalení a výpadek nás moc mrzí a omlouváme se za něj všem námořníkům a kapitánům. Soustavně se snažíme o to, aby plavba vašich firem a týmů ve Freelu byla klidná a bez zbytečných uvíznutí na mělčině.

Děkujeme, že plujete s námi.

Freelo.io Blog Strojovna Proč bylo Freelo včera okolo poledne pomalejší a mohli jste zaznamenat i řízený výpadek

Inspirace

Podcast & Rozhovory

Strojovna

Akademie