Project Tardigrade schützt Ihr VMs vor Hostfehlern

Inhaltsverzeichnis:

Video: Tardigrade Research Project Bio II 2024

Video: Tardigrade Research Project Bio II 2024
Anonim

Nach mehreren Azure-Änderungen und Sicherheitsverbesserungen in den letzten Monaten führt Microsoft Project Tardigrade als neuesten Versuch ein, Azure zuverlässiger zu machen.

Project Tardigrade verhindert Plattformausfälle

Project Tardigrade ist ein neuer Dienst, der die Ausfallsicherheit von Azure verbessern soll. Es enthält Schutzstrategien, mit denen Azure-VMs vor Plattformfehlern geschützt werden.

So beschreibt Mark Russinovich, Chief Technology Officer bei Microsoft Azure, die aktuelle Arbeit an Azure:

Unser Ziel ist es, Organisationen zu befähigen, ihre Workloads zuverlässig in Azure auszuführen. Unter diesem Leitgedanken investieren wir kontinuierlich in die Weiterentwicklung der Azure-Plattform, um die Fehlerresistenz zu verbessern und nicht nur die Unternehmensproduktivität zu steigern, sondern auch ein nahtloses Kundenerlebnis zu bieten.

Um Auswirkungen auf Ihre Workloads zu vermeiden, können die Komponenten mithilfe des Dienstes selbst repariert werden und sich auch bei kritischen Hostfehlern schnell von potenziellen Fehlern erholen.

Wie funktioniert Project Tardigrade?

Im Folgenden finden Sie ein Beispiel für die Funktionsweise des Tardigrade-Wiederherstellungsworkflows:

  • Phase 1: Dieser Schritt hat keine Auswirkungen auf die Ausführung von Kunden-VMs. Es werden einfach alle auf dem Host ausgeführten Dienste wiederverwendet. In dem seltenen Fall, dass der fehlerhafte Dienst nicht erfolgreich neu gestartet wird, fahren wir mit Phase 2 fort.
  • Phase 2: Unser Diagnoseservice wird auf dem Host ausgeführt, um alle relevanten Protokolle / Speicherauszüge systematisch zu erfassen, um sicherzustellen, dass wir den Grund für das Versagen in Phase 1 gründlich diagnostizieren können. Diese umfassende Analyse ermöglicht es uns, das Problem "zu ursachen" und damit Wiederholungen zu vermeiden in der Zukunft.
  • Phase 3: Auf hohem Niveau setzen wir das Betriebssystem in einen fehlerfreien Zustand mit minimalen Auswirkungen auf die Kunden zurück, um das Hostproblem zu mindern. Während dieser Phase behalten wir die Zustände jeder VM im RAM bei, wonach wir beginnen, das Betriebssystem in einen fehlerfreien Zustand zurückzusetzen. Während das Betriebssystem schnell zurückgesetzt wird, kommt es bei der Ausführung von Anwendungen auf allen auf dem Server gehosteten VMs zu einem kurzen "Einfrieren", da die CPU vorübergehend angehalten wird. Diese Erfahrung ähnelt einer Netzwerkverbindung, die vorübergehend unterbrochen wird, jedoch aufgrund der Logik der erneuten Versuche schnell wieder aufgenommen wird. Nach dem erfolgreichen Zurücksetzen des Betriebssystems übernehmen die VMs ihren gespeicherten Status und nehmen die normale Aktivität wieder auf, wodurch potenzielle VM-Neustarts umgangen werden.

In diesem Sinne stellt Project Tardigrade sicher, dass der Ausfall einer einzelnen Komponente im Host nicht das gesamte System beeinträchtigt. Daher sind Kunden-VMs nicht von Hostfehlern betroffen.

Microsoft arbeitet intensiv an der Verbesserung und Erweiterung der verschiedenen Hostausfallszenarien, um sicherzustellen, dass die Cloud-Computing-Plattform zuverlässiger als je zuvor ist.

Erwarten Sie in naher Zukunft neue Entwicklungen und andere Zuverlässigkeitsimplementierungen.

Project Tardigrade schützt Ihr VMs vor Hostfehlern