Stránka 1 z 1

Vypadek 12.7.2018

Napsal: 13. 7. 2018, 3:43
od robokop
Vcerejsi vypadek:
Na wedosu probehl masivny vypadek kvuli tomu ze jim zarvalo nejake uloziste. Sesypali se jim i interni servery s administraci atd...
Nabehlo to az ve 4 rano.

Bohuzel jak tak koukam maji jeden az dva takove zaseky do mesice.

Kdo ze to radil ze to mam presunout na wedos?

Re: Vypadek 12.7.2018

Napsal: 13. 7. 2018, 4:20
od robokop
ted prislo upozorneni na vypadek:

Vážený zákazníku,

dovolujeme si Vás upozornit na následující odstávku (poruchu či změnu):

Typ: porucha
Doba trvání: 12h
Datum a čas od: 2018-07-12 15:08:00
Datum a čas do:
Popis:

Ve čtvrtek po 15:00 došlo k poškození datového subsystému řídícího clusteru. Nyní jsme cluster obnovili a všechny VPS by měly běžet. Zkontrolujte si prosím data na VPS a v případě problémů se na nás obraťte. Na začátku příštího tydne vydáme oficiální prohlášení k tomuto výpadku, které Vám zašleme mailem. Zároveň plánujeme změny a migrace VPS na spolehlivější řešení, aby se to neopakovalo. Více detailů bude v mailu.

Tato událost se týká následujících Vašich služeb:

VPS ON:



S přáním hezkého dne,

Petr Smetana

WEDOS Internet, a.s.
Masarykova 1230
373 41 Hluboká nad Vltavou

Re: Vypadek 12.7.2018

Napsal: 13. 7. 2018, 6:38
od reta
Mě osobně tam chybí omluva, stát se může. Zase na druhou stranu, od doby co byly vynalezený peníze netřeba se omlouvat.

Re: Vypadek 12.7.2018

Napsal: 13. 7. 2018, 7:25
od robokop
taky mam pocit ze za takovej pruser mohli hodit treba nejakej ten mesic zadarmo
ale vzhledem k cetnosti vypadku to vypada ze by spis platili klientum nez klienti jim

Re: Vypadek 12.7.2018

Napsal: 21. 7. 2018, 8:42
od robokop
oficialni report:


dovolujeme si Vás upozornit na následující odstávku (poruchu či změnu):

Typ: porucha
Doba trvání: 12h
Datum a čas od: 2018-07-12 15:08:00
Datum a čas do:
Popis:

Vážený zákazníku,

zasíláme Vám kompletní zprávu o událostech z 12. - 13. července 2018, která vedla k nedostupnosti Vaší služby VPS ON. Vždy jsme si zakládali na otevřenosti a upřímnosti. Svěřujete nám Vaše data a tak chceme, abyste nám mohli věřit i nadále. Z toho důvodu následující vysvětlení obsahuje i důvěrná data o využívaných technologiích.

Co se stalo

Služba VPS ON patří k nejsložitějším a zároveň pro zákazníka do budoucna nejzajímavějším projektům na jakých většina z nás kdy pracovala. Využíváme pro ní velké množství nových technologií, které z ní do budoucna mají udělat jedničku na trhu.

Celou kaskádu událostí nastartoval problém na XFS, které funguje v řídícím clusteru (proxmox) jako podlehlá vrstva pod CEPH. Těchto nodů máme 8, problém se nejdříve vyskytl na jednom z nich. Po restartu tohoto nodu a nastartování CEPH-OSD daemona se zasekly všechny nody řídícího clusteru a byly restartovány díky fencingu.

Po opětovném nastartování řídícího clusteru jsme zjistili, že XFS je rozbité na třech nodech. Na jednom z nich bylo XFS sice rozbité, ale bylo ho možné namountovat, ostatní dva úplně přišly o data.

Přes všechny pokusy o záchranu jsme díky ztrátě 3 velkých OSD na CEPH přišly o 5 z 256 placement groups. O obnovu pěti ztracených skupin jsme se z rozbitého XFS snažili 5 hodin. Bohužel to však nebylo možné.

Vzhledem k tomu, že již neexistovaly žádné další možnosti, jsme se rozhodli zahodit daných 5 skupin a zkusit jaké by bylo možné zachránit.

V řídícím clusteru primárně běží několik kontejnerů, které se používají pro fungování podlehlých služeb (OpenNebula / webhosting). Nejdůležitější jsou kontejnery pro BeeGFS (podle důležitosti - metadata/mgmtd/admon), což je filesystém, podlehlý všem službám na moonshotech (minimálně z části).

Po naběhnutí CEPHu jsme vyzálohovali kontejnery před zapnutím a následně je rozběhli. Přes všechno vynaložené úsilí jsme zjistili, že kontejnery co nám v proxmoxu zbyly jsou nepoužitelné.

Následovala obnova řídících kontejnerů z nočních záloh předešlého dne. Potom co jsme nastartovali veškeré řídící služby, jsme začali postupně startovat VPS ON a vracet cluster do podoby před výpadkem.

Dle zjištění několika našich zákazníků, došlo na jejich discích k rollbacku dat. Z naší strany se však neprováděla žádná obnova zákaznických dat a BeeGFS ani nedisponuje žádným interním mechanizmem pro snapshoty. Disky VPS jsou navíc uloženy ve formátu RAW, který oproti qcow rovněž nedisponuje možností snapshoty vytvářet. Dalším zvláštním faktem je, že tato data (s rollbackem) se nacházejí i v našich 0-7 dní starých zálohách. Tento problém řešíme v usergroups BeeGFS již delší dobu, zatím však bez odezvy.

Co uděláme proto, aby se to už nikdy neopakovalo

Naše reakce na tuto situaci je následovná. Řídící cluster jsme předělali na DRBD s NFS - do budoucna zvažujeme kombinaci DRBD-iSCSI-LVM. Připravujeme opuštění BeeGFS. Náš diskový subsystém pro provoz služeb chceme rozložit do stejné struktury jako řídící cluster. Kromě vyšší stability by nám to mělo rozložit zátěž, která se nebude koncentrovat na komponentách řídícího clusteru. Zároveň by to mělo odstranit SPoF, kterým byl CEPH, ač se jeho nasazení mohlo zdát sebevíce redundantní.

Ke změnám bude docházet postupně, migrace bychom chtěli začít dělat během příštího týdne, o dalším postupu vás budeme informovat.

Omluva

Takto dlouhý výpadek jsme v historii neměli u žádné ze služeb a věříme, že máme vybráno minimálně na 10 let. Velice se Vám za komplikace omlouváme a rádi bychom Vám jako omluvu nabídli prodloužení X měsíců u postižených služeb. Stačí když nám odpovíte na tento email a naši pracovníci se o vše postarají.

Re: Vypadek 12.7.2018

Napsal: 22. 7. 2018, 4:56
od Petr68
A hele, někdo jsem dal manuál k raketoplánu :roll:

Re: Vypadek 12.7.2018

Napsal: 22. 7. 2018, 8:13
od Miller
Petr68 píše: 22. 7. 2018, 4:56 A hele, někdo jsem dal manuál k raketoplánu :roll:
Manuál k češtině
Správně: A hele, někdo sem dal manuál k raketoplánu :roll:

Teorie: jde o záměnu mezi tvarem 1. osoby jednotného čísla slovesa být ([já] jsem) a příslovcem místa (sem, ve smyslu zde, tady)
Praxe: Kam jsem to jenom dal? Aha, dal jsem to sem. :wink:

Re: Vypadek 12.7.2018

Napsal: 22. 7. 2018, 8:37
od robokop
:D

Re: Vypadek 12.7.2018

Napsal: 22. 7. 2018, 9:07
od Petr68
To Miller, díky za upozornění. :D

Re: Vypadek 12.7.2018

Napsal: 23. 7. 2018, 7:36
od Zv.Petr
robokop píše: 13. 7. 2018, 3:43 Bohuzel jak tak koukam maji jeden az dva takove zaseky do mesice.
Kdo ze to radil ze to mam presunout na wedos?
Taky jsem jednu takovou radu poslechl a teď dumám kam jít jinam - od Forpsi jsem odešel, od Wedosu odejdu...
Kam jít? Podotýkám, peníze nejsou ten první argument...:evil:

Re: Vypadek 12.7.2018

Napsal: 23. 7. 2018, 9:03
od robokop
Bylo by fajn mit dva vlastni HW servery
Ale je to dost drahe
Snad to ted pujde vyresit diky strojirenstvi.cz
Jakmile to zacne generovat nejake penize jdu do toho

Re: Vypadek 12.7.2018

Napsal: 23. 7. 2018, 2:55
od Zv.Petr
Neber to jako reklamu, já jsem jich pár (použitých) koupil tady - https://www.czech-server.cz/ a cena byla pro mě přijatelná, už jsem použil i jejich servis a taky mě nezklamal. Tak jen jako tip...

Re: Vypadek 12.7.2018

Napsal: 23. 7. 2018, 6:52
od robokop
Asi vim kde je berou :lol: