Gintaras Bružas dirba IT vadovu nedidelėje logistikos įmonėje Vilniuje. Prieš pusantrų metų jų debesijos infrastruktūra buvo tikra painiava: trys skirtingi tiekėjai, rankiniu būdu daryti nustatymai ir jokios aiškios stebėsenos.
Pirmiausia jis atliko auditą. Naudodamas AWS Cost Explorer ir paprastą skaičiuoklę, Gintaras surado resursus, kurie veikė, bet nieko nedarė. Tai buvo atspirties taškas.
Kaip vyko pertvarkymas
Pirmą savaitę buvo žemėlapiuojama: kuris serveris kam tarnauja, kas jį valdo, kokia kaina. Be šio žingsnio visi kiti sprendimai būtų buvę tik spėlionės.
Antrą etapą sudarė infrastruktūros kaip kodo įdiegimas naudojant Terraform. Gintaras pripažįsta, kad tai užtruko ilgiau nei tikėjosi, nes komanda turėjo mokytis iš esmės darbo metu.
Trečias etapas buvo stebėsenos sukūrimas. Jie pasirinko Grafana ir Prometheus derinį, ne todėl, kad tai madinga, o todėl, kad abu įrankiai turėjo reikiamą dokumentaciją lietuvių kūrėjų bendruomenėje.
Kas nepasiteisino
Automatinis mastelio keitimas buvo sukonfigūruotas per agresyviai. Pirmą mėnesį sąskaita išaugo, nes sistema kūrė naujus egzempliorius greičiau, nei sunaikino senus.
Gintaras tai išsprendė pakeisdamas cooldown laikotarpį nuo 60 iki 180 sekundžių ir pridėdamas aiškias viršutines ribas kiekvienai paslaugai atskirai.
Šiandien jų infrastruktūra vis dar netobula, bet kiekvienas pakeitimas yra dokumentuotas ir atkartojamas. Tai jau yra kažkas.
