Project tardigrade chroni vms przed awariami hosta

Spisu treści:

Wideo: Legalna Marta #6: ILE MASZYN WIRTUALNYCH NA WINDOWS SERVER? 2024

Wideo: Legalna Marta #6: ILE MASZYN WIRTUALNYCH NA WINDOWS SERVER? 2024
Anonim

Po wielu zmianach platformy Azure i ulepszeniach zabezpieczeń w ciągu ostatnich kilku miesięcy Microsoft wprowadza Project Tardigrade jako najnowszą próbę zwiększenia niezawodności platformy Azure.

Project Tardigrade zapobiega awariom platformy

Project Tardigrade to nowa usługa, której celem jest poprawa odporności platformy Azure. Obejmuje strategie łagodzenia, które chronią maszyny wirtualne platformy Azure przed awariami platformy.

Oto jak Mark Russinovich, dyrektor ds. Technologii w Microsoft Azure, opisuje bieżącą pracę na platformie Azure:

Naszym celem jest umożliwienie organizacjom niezawodnego uruchamiania obciążeń na platformie Azure. Zgodnie z naszą główną zasadą nieustannie inwestujemy w rozwój platformy Azure, aby stała się odporna na awarie, nie tylko w celu zwiększenia wydajności biznesowej, ale także w celu zapewnienia płynnej obsługi klienta.

Aby zapobiec oddziaływaniu na obciążenia, usługa umożliwia samoleczenie się komponentów i szybkie odzyskiwanie po potencjalnych awariach, nawet w przypadku krytycznych awarii hosta.

Jak działa Project Tardigrade?

Oto przykład działania przepływu pracy odzyskiwania Tardigrade:

  • Faza 1: Ten krok nie ma wpływu na uruchamianie maszyn wirtualnych klientów. Po prostu przetwarza wszystkie usługi uruchomione na hoście. W rzadkim przypadku, gdy uszkodzona usługa nie uruchomi się ponownie, przechodzimy do fazy 2.
  • Faza 2: Nasza usługa diagnostyczna działa na hoście, aby systematycznie zbierać wszystkie odpowiednie dzienniki / zrzuty, aby zapewnić, że możemy dokładnie zdiagnozować przyczynę niepowodzenia w fazie 1. Ta kompleksowa analiza pozwala nam „podstawową przyczynę” problemu, a tym samym zapobiec ponownemu wystąpieniu w przyszłości.
  • Faza 3: Na wysokim poziomie przywracamy system operacyjny do stanu gotowości przy minimalnym wpływie na klienta, aby złagodzić problem z hostem. Podczas tej fazy zachowujemy stany każdej maszyny wirtualnej do pamięci RAM, po czym zaczynamy resetować system operacyjny do stanu dobrego. Podczas gdy system operacyjny szybko resetuje się pod spodem, uruchamianie aplikacji na wszystkich maszynach wirtualnych hostowanych na serwerze krótko „zawiesza się”, ponieważ procesor jest tymczasowo zawieszony. To doświadczenie jest podobne do chwilowego utraty połączenia sieciowego, ale szybko wznowione z powodu logiki ponownej próby. Po pomyślnym zresetowaniu systemu operacyjnego maszyny wirtualne zużywają stan przechowywany i wznawiają normalną aktywność, tym samym omijając potencjalne ponowne uruchomienie maszyny wirtualnej.

Mając to na uwadze, Project Tardigrade zapewni, że awaria dowolnego komponentu w hoście nie wpłynie na cały system. W związku z tym na maszynach wirtualnych klientów nie będą miały wpływu błędy hosta.

Microsoft ciężko pracuje nad ulepszeniem i rozszerzeniem różnych scenariuszy awarii hosta, aby upewnić się, że ich platforma przetwarzania w chmurze jest bardziej niezawodna niż kiedykolwiek.

Oczekuj nowych rozwiązań i innych wdrożeń niezawodności w najbliższej przyszłości.

Project tardigrade chroni vms przed awariami hosta