Vypadek 12.7.2018

Veškeré provozní záležitosti, dotazy a návrhy k fungování fóra a členů
Odpovědět
Uživatelský avatar
robokop
Site Admin
Příspěvky: 22371
Registrován: 10. 7. 2006, 12:12
Bydliště: Praha
Kontaktovat uživatele:

13. 7. 2018, 3:43

Vcerejsi vypadek:
Na wedosu probehl masivny vypadek kvuli tomu ze jim zarvalo nejake uloziste. Sesypali se jim i interni servery s administraci atd...
Nabehlo to az ve 4 rano.

Bohuzel jak tak koukam maji jeden az dva takove zaseky do mesice.

Kdo ze to radil ze to mam presunout na wedos?
Vsechna prava na chyby vyhrazena (E)
Uživatelský avatar
robokop
Site Admin
Příspěvky: 22371
Registrován: 10. 7. 2006, 12:12
Bydliště: Praha
Kontaktovat uživatele:

13. 7. 2018, 4:20

ted prislo upozorneni na vypadek:

Vážený zákazníku,

dovolujeme si Vás upozornit na následující odstávku (poruchu či změnu):

Typ: porucha
Doba trvání: 12h
Datum a čas od: 2018-07-12 15:08:00
Datum a čas do:
Popis:

Ve čtvrtek po 15:00 došlo k poškození datového subsystému řídícího clusteru. Nyní jsme cluster obnovili a všechny VPS by měly běžet. Zkontrolujte si prosím data na VPS a v případě problémů se na nás obraťte. Na začátku příštího tydne vydáme oficiální prohlášení k tomuto výpadku, které Vám zašleme mailem. Zároveň plánujeme změny a migrace VPS na spolehlivější řešení, aby se to neopakovalo. Více detailů bude v mailu.

Tato událost se týká následujících Vašich služeb:

VPS ON:



S přáním hezkého dne,

Petr Smetana

WEDOS Internet, a.s.
Masarykova 1230
373 41 Hluboká nad Vltavou
Vsechna prava na chyby vyhrazena (E)
reta
Příspěvky: 657
Registrován: 22. 7. 2014, 1:50
Bydliště: Pardubice

13. 7. 2018, 6:38

Mě osobně tam chybí omluva, stát se může. Zase na druhou stranu, od doby co byly vynalezený peníze netřeba se omlouvat.
Uživatelský avatar
robokop
Site Admin
Příspěvky: 22371
Registrován: 10. 7. 2006, 12:12
Bydliště: Praha
Kontaktovat uživatele:

13. 7. 2018, 7:25

taky mam pocit ze za takovej pruser mohli hodit treba nejakej ten mesic zadarmo
ale vzhledem k cetnosti vypadku to vypada ze by spis platili klientum nez klienti jim
Vsechna prava na chyby vyhrazena (E)
Uživatelský avatar
robokop
Site Admin
Příspěvky: 22371
Registrován: 10. 7. 2006, 12:12
Bydliště: Praha
Kontaktovat uživatele:

21. 7. 2018, 8:42

oficialni report:


dovolujeme si Vás upozornit na následující odstávku (poruchu či změnu):

Typ: porucha
Doba trvání: 12h
Datum a čas od: 2018-07-12 15:08:00
Datum a čas do:
Popis:

Vážený zákazníku,

zasíláme Vám kompletní zprávu o událostech z 12. - 13. července 2018, která vedla k nedostupnosti Vaší služby VPS ON. Vždy jsme si zakládali na otevřenosti a upřímnosti. Svěřujete nám Vaše data a tak chceme, abyste nám mohli věřit i nadále. Z toho důvodu následující vysvětlení obsahuje i důvěrná data o využívaných technologiích.

Co se stalo

Služba VPS ON patří k nejsložitějším a zároveň pro zákazníka do budoucna nejzajímavějším projektům na jakých většina z nás kdy pracovala. Využíváme pro ní velké množství nových technologií, které z ní do budoucna mají udělat jedničku na trhu.

Celou kaskádu událostí nastartoval problém na XFS, které funguje v řídícím clusteru (proxmox) jako podlehlá vrstva pod CEPH. Těchto nodů máme 8, problém se nejdříve vyskytl na jednom z nich. Po restartu tohoto nodu a nastartování CEPH-OSD daemona se zasekly všechny nody řídícího clusteru a byly restartovány díky fencingu.

Po opětovném nastartování řídícího clusteru jsme zjistili, že XFS je rozbité na třech nodech. Na jednom z nich bylo XFS sice rozbité, ale bylo ho možné namountovat, ostatní dva úplně přišly o data.

Přes všechny pokusy o záchranu jsme díky ztrátě 3 velkých OSD na CEPH přišly o 5 z 256 placement groups. O obnovu pěti ztracených skupin jsme se z rozbitého XFS snažili 5 hodin. Bohužel to však nebylo možné.

Vzhledem k tomu, že již neexistovaly žádné další možnosti, jsme se rozhodli zahodit daných 5 skupin a zkusit jaké by bylo možné zachránit.

V řídícím clusteru primárně běží několik kontejnerů, které se používají pro fungování podlehlých služeb (OpenNebula / webhosting). Nejdůležitější jsou kontejnery pro BeeGFS (podle důležitosti - metadata/mgmtd/admon), což je filesystém, podlehlý všem službám na moonshotech (minimálně z části).

Po naběhnutí CEPHu jsme vyzálohovali kontejnery před zapnutím a následně je rozběhli. Přes všechno vynaložené úsilí jsme zjistili, že kontejnery co nám v proxmoxu zbyly jsou nepoužitelné.

Následovala obnova řídících kontejnerů z nočních záloh předešlého dne. Potom co jsme nastartovali veškeré řídící služby, jsme začali postupně startovat VPS ON a vracet cluster do podoby před výpadkem.

Dle zjištění několika našich zákazníků, došlo na jejich discích k rollbacku dat. Z naší strany se však neprováděla žádná obnova zákaznických dat a BeeGFS ani nedisponuje žádným interním mechanizmem pro snapshoty. Disky VPS jsou navíc uloženy ve formátu RAW, který oproti qcow rovněž nedisponuje možností snapshoty vytvářet. Dalším zvláštním faktem je, že tato data (s rollbackem) se nacházejí i v našich 0-7 dní starých zálohách. Tento problém řešíme v usergroups BeeGFS již delší dobu, zatím však bez odezvy.

Co uděláme proto, aby se to už nikdy neopakovalo

Naše reakce na tuto situaci je následovná. Řídící cluster jsme předělali na DRBD s NFS - do budoucna zvažujeme kombinaci DRBD-iSCSI-LVM. Připravujeme opuštění BeeGFS. Náš diskový subsystém pro provoz služeb chceme rozložit do stejné struktury jako řídící cluster. Kromě vyšší stability by nám to mělo rozložit zátěž, která se nebude koncentrovat na komponentách řídícího clusteru. Zároveň by to mělo odstranit SPoF, kterým byl CEPH, ač se jeho nasazení mohlo zdát sebevíce redundantní.

Ke změnám bude docházet postupně, migrace bychom chtěli začít dělat během příštího týdne, o dalším postupu vás budeme informovat.

Omluva

Takto dlouhý výpadek jsme v historii neměli u žádné ze služeb a věříme, že máme vybráno minimálně na 10 let. Velice se Vám za komplikace omlouváme a rádi bychom Vám jako omluvu nabídli prodloužení X měsíců u postižených služeb. Stačí když nám odpovíte na tento email a naši pracovníci se o vše postarají.
Vsechna prava na chyby vyhrazena (E)
Petr68
Příspěvky: 878
Registrován: 3. 12. 2015, 9:38
Bydliště: Karlovy vary

22. 7. 2018, 4:56

A hele, někdo jsem dal manuál k raketoplánu :roll:
Strigon ME-250, SV18RA, Mikromat SFW200/600, L-TEC Ductling II
Uživatelský avatar
Miller
Sponzor fora
Příspěvky: 1031
Registrován: 22. 8. 2009, 9:24
Bydliště: Louny

22. 7. 2018, 8:13

Petr68 píše: 22. 7. 2018, 4:56 A hele, někdo jsem dal manuál k raketoplánu :roll:
Manuál k češtině
Správně: A hele, někdo sem dal manuál k raketoplánu :roll:

Teorie: jde o záměnu mezi tvarem 1. osoby jednotného čísla slovesa být ([já] jsem) a příslovcem místa (sem, ve smyslu zde, tady)
Praxe: Kam jsem to jenom dal? Aha, dal jsem to sem. :wink:
Mini soustruh SC-4
Uživatelský avatar
robokop
Site Admin
Příspěvky: 22371
Registrován: 10. 7. 2006, 12:12
Bydliště: Praha
Kontaktovat uživatele:

22. 7. 2018, 8:37

:D
Přílohy
grammar nazi.jpg
grammar nazi.jpg (10.87 KiB) Zobrazeno 5321 x
Vsechna prava na chyby vyhrazena (E)
Petr68
Příspěvky: 878
Registrován: 3. 12. 2015, 9:38
Bydliště: Karlovy vary

22. 7. 2018, 9:07

To Miller, díky za upozornění. :D
Strigon ME-250, SV18RA, Mikromat SFW200/600, L-TEC Ductling II
Zv.Petr
Příspěvky: 337
Registrován: 16. 7. 2018, 7:10
Bydliště: Slaný
Kontaktovat uživatele:

23. 7. 2018, 7:36

robokop píše: 13. 7. 2018, 3:43 Bohuzel jak tak koukam maji jeden az dva takove zaseky do mesice.
Kdo ze to radil ze to mam presunout na wedos?
Taky jsem jednu takovou radu poslechl a teď dumám kam jít jinam - od Forpsi jsem odešel, od Wedosu odejdu...
Kam jít? Podotýkám, peníze nejsou ten první argument...:evil:
Uživatelský avatar
robokop
Site Admin
Příspěvky: 22371
Registrován: 10. 7. 2006, 12:12
Bydliště: Praha
Kontaktovat uživatele:

23. 7. 2018, 9:03

Bylo by fajn mit dva vlastni HW servery
Ale je to dost drahe
Snad to ted pujde vyresit diky strojirenstvi.cz
Jakmile to zacne generovat nejake penize jdu do toho
Vsechna prava na chyby vyhrazena (E)
Zv.Petr
Příspěvky: 337
Registrován: 16. 7. 2018, 7:10
Bydliště: Slaný
Kontaktovat uživatele:

23. 7. 2018, 2:55

Neber to jako reklamu, já jsem jich pár (použitých) koupil tady - https://www.czech-server.cz/ a cena byla pro mě přijatelná, už jsem použil i jejich servis a taky mě nezklamal. Tak jen jako tip...
Uživatelský avatar
robokop
Site Admin
Příspěvky: 22371
Registrován: 10. 7. 2006, 12:12
Bydliště: Praha
Kontaktovat uživatele:

23. 7. 2018, 6:52

Asi vim kde je berou :lol:
Vsechna prava na chyby vyhrazena (E)
Odpovědět

Zpět na „Provozní záležitosti“