The Cluster Is Not the Platform

Ein einzelner Kubernetes-Cluster ist ein Projekt. Der hundertste Standort ist ein Betriebsmodell.
Das ist die eigentliche Zaesur, an der viele Industrial-Edge-Initiativen scheitern. Der erste Cluster zeigt, dass Container nahe an der Produktion laufen koennen. Die erste Demo beweist, dass ein Workload startet, ein Service antwortet und ein Dashboard gruen wird. Aber das ist noch keine Plattform. Eine Plattform entsteht erst, wenn dieselbe Faehigkeit wiederholbar, steuerbar und betreibbar ueber viele Werke, Linien und lokale Realitaeten hinweg wird.
Kubernetes ist dabei der Runtime-Kern. Die Plattform ist der Ring aus Vertraegen, Grenzen und Betriebsprozessen um diesen Kern herum: Adressierung, DNS, PKI, Firewalling, Identitaet, Registry, Storage, Observability, Lifecycle, GitOps, Backup und Standortkontext. Wenn diese Dinge nicht als Plattformfaehigkeiten modelliert sind, wird jeder neue Workload wieder zum kleinen Infrastrukturprojekt.
Fabriken sind keine kleinen Cloud-Regionen
Industrial Edge verhaelt sich nicht wie eine verkleinerte Public-Cloud-Region. Werke haben segmentierte oder eingeschraenkte Netze. Verbindungen koennen intermittent sein. Wartungsfenster folgen Produktionsrhythmen, nicht nur Software-Release-Kalendern. Ownership verteilt sich auf Plattform-, Netzwerk-, Security-, Applikations- und Plant-Teams. Standorte unterscheiden sich in VLANs, Hardwaregenerationen, Racks, WAN-Anbindungen und lokalen Sicherheitsprozessen.
Diese Unterschiede sind keine laestigen Ausnahmen. Sie sind Design-Input.
Wer Industrial Edge wie eine homogene Cloud behandelt, baut eine Architektur, die am echten Betrieb vorbeigeht. Die Plattform muss lokale Unterschiede sichtbar machen, nicht in Tickets, Wikis und implizitem Wissen verstecken. Ein guter Edge-Ansatz fragt deshalb nicht nur: “Wie deployen wir Kubernetes?”, sondern: “Wie modellieren wir Standortrealitaet so, dass sie zentral governable und lokal betreibbar bleibt?”
Das einfache Request, das gar nicht einfach ist
Nehmen wir ein scheinbar simples Beispiel: Ein Team moechte eine Line-Monitoring-Applikation in 50 Werken ausrollen. Der Workload selbst ist ueberschaubar: ein containerbasierter Metrik-Collector, vielleicht ein kleiner VM-basierter Gateway oder Legacy-Adapter, ein stabiler Endpunkt, Observability-Forwarding, ein konservativer Lifecycle.
Aus Anwendungssicht klingt das wie eine Standardanforderung. Aus Plattformperspektive steckt darin aber fast alles, was Industrial Edge schwierig macht:
- Welche Standortprofile gelten?
- Welche Netzwerkgrenze oder VPC-artige Boundary wird genutzt?
- Welche OT-zu-IT-Telemetriepfade sind genehmigt?
- Woher kommen Container-Images und VM-Artefakte?
- Wer stellt DNS, Zertifikate und Load Balancing bereit?
- Wie funktionieren lokale Reconciliation, Rollback und Upgrade-Wellen?
Der Konsument sollte ein genehmigtes Muster anfordern koennen. Er sollte nicht fuer jedes Werk die Plattform neu designen muessen.
Self-Service ist nur die Eingangstuer
Viele Private-Cloud- und Kubernetes-Programme kopieren zuerst das sichtbarste Element der Public Cloud: das Portal. Das ist verstaendlich, aber gefaehrlich. Die Cloud-Erfahrung entsteht nicht durch eine schoene Oberflaeche. Sie entsteht durch eine delegierte Boundary.
Innerhalb dieser Boundary sind Ownership, Identitaet, Quota, Netzwerk und Policy so geklaert, dass genehmigte Aktionen automatisiert werden koennen. Ausserhalb der Boundary bleiben Ausnahmen sichtbar, dokumentiert und reviewbar.
Das ist der Unterschied zwischen “jemand klickt in einem Portal” und echter governter Autonomie. Self-Service darf nicht bedeuten, dass Applikationsteams ungefiltert Infrastruktur veraendern. Self-Service sollte bedeuten: genehmigte Freiheit innerhalb klar definierter Grenzen.
Platform Latency: die Wartezeit wird Teil der Architektur
Wenn jede Standardabhaengigkeit ein manueller Handoff ist, wird die Organisation selbst zur Architekturkomponente. Ein Ticket fuer IP-Adressen wird Lead Time. Eine Firewall-Aenderung fuer jeden Standard-Workload wird Release-Risiko. Manuelle DNS-, Zertifikats- und VIP-Prozesse werden Drift und Cleanup-Schulden.
Entwicklerinnen und Entwickler sehen nicht das Organigramm. Sie erleben Wartezeit.
Darum reicht es nicht, dass eine Faehigkeit irgendwo existiert. Eine Registry, ein PKI-Prozess oder ein Firewall-Workflow ist erst dann Plattformfaehigkeit, wenn er wiederholbar konsumierbar ist. Sonst bleibt er eine Spezialdienstleistung.
Service Contracts statt Ticketketten
Die Plattform braucht Vertraege fuer die gemeinsamen Dienste um Kubernetes herum. Drei Beispiele zeigen, wie konkret das werden muss.
Adressierung und Netzwerkprofile: Adressierung ist kein Spreadsheet, sondern ein Lifecycle-Thema. Eine SiteNetworkProfile-artige Schnittstelle sollte Site-ID, Zone, Workload-CIDR, Service-CIDR, VIP-Pools, Route Domains, Ownership und Reclaim-Regeln beschreiben. Entscheidend ist nicht, ob das Objekt genau so heisst. Entscheidend ist die Form des Vertrags: declared, owned, governed, repeatable.
Connectivity: Standardfluesse brauchen Policy, bevor sie wieder ein Ticket brauchen. Ein ConnectivityPolicy-Ansatz beschreibt Quelle, Ziel, Protokoll, Owner, Audit-Anforderung und genehmigtes Traffic-Muster. Netzwerk- und Security-Teams behalten die Regelhoheit. Die Plattform konsumiert diese Regeln ueber eine klare Schnittstelle.
Exposure: DNS, PKI und Load Balancing entscheiden, ob sich eine Applikation wirklich deploybar anfuehlt. Ein Cluster kann gesund sein, waehrend die Anwendung noch auf Records, Zertifikate, VIPs und Firewall-Aenderungen wartet. Besser ist ein Modell, in dem die Applikation Exposure Intent deklariert und die Plattform daraus governte DNS-, Zertifikats- und Load-Balancer-Zustaende ableitet.
Standortkontext muss ein First-Class Object sein
Industrial Edge braucht ein Objekt, das den erlaubten Betriebsrahmen eines Standorts beschreibt. Nennen wir es SiteProfile.
Ein SiteProfile enthaelt beispielsweise Netzwerkprofil, lokale Registry, VM-Library, Observability-Modus, Lifecycle-Ring und Wartungsfenster. Dadurch werden genehmigte Muster waehlbare Posture statt jedes Mal neue Architekturdebatten.
Ausnahmen verschwinden dadurch nicht. Aber sie werden sichtbar, dokumentiert und owned. Genau das ist der Unterschied zwischen Wildwuchs und governter Autonomie.
GitOps ist der Kontrollkreis, nicht die ganze Plattform
GitOps passt sehr gut zu Industrial Edge, weil es zentrale Absicht mit lokaler Ausfuehrung verbindet. Die Plattform wandelt den genehmigten Request in versionierten Zielzustand um. Jeder Edge-Standort zieht diesen Zielzustand und reconciled lokal gegen seine Runtime.
Das hat zwei wichtige Vorteile. Erstens bleibt Git die reviewbare Quelle der Wahrheit fuer VM- und Container-Intent. Zweitens kann der Standort auch dann lokal weiterarbeiten, wenn zentrale Verbindungen nicht perfekt sind.
Aber GitOps allein ist nicht genug. Wenn Images, VM-Artefakte, Policy-Bundles oder Observability-Pfade nur zentral existieren, kann der Standort den deklarierten Zustand nicht zuverlaessig herstellen. Locality gehoert deshalb zur Plattform: lokale oder erreichbare Registries, abonnierte Content Libraries, lokal verfuegbare Policies, gepufferte Observability und klare Rollback-Pfade.
Lifecycle zeigt, ob es eine Plattform ist
Upgrades entlarven die Wahrheit. Eine Sammlung einzelner Cluster kann man vielleicht einzeln pflegen. Eine industrielle Edge-Flotte braucht Wellen, Ringe und explizite Risikomodelle.
Ein sinnvoller Lifecycle kann so aussehen:
- Wave 0: ein repraesentativer Standort fuer Integration, Kompatibilitaet und Rollback-Probe
- Wave 1: Low-Risk-Standorte mit engem Beobachtungsfenster
- Wave 2: Standardproduktion mit wiederholbarem Rollout
- Wave 3: konservative Standorte mit spezifischen Produktionsfenstern und laengerem Soak
Git liefert versionierten Intent. Lifecycle-Wellen entscheiden, wann dieser Intent welche Produktionsstandorte erreicht. Teams sollten eine Lifecycle-Posture waehlen koennen, ohne jedes Upgrade neu zu verhandeln.
Ownership ist Teil der Architektur
Eine Plattform ist nur so echt wie ihre Ownership. Wenn niemand die End-to-End-Erfahrung besitzt, wird Self-Service schnell zu Koordinationstheater.
Application Teams besitzen Intent, SLO-Klasse, Datenlokalitaet und Workload-Verhalten. Plattformteams besitzen Schnittstellen, Guardrails und Lifecycle. Netzwerk- und Security-Teams besitzen Regeln, Route Domains, Audit und Ausnahmekriterien. Plant-Teams besitzen Produktionskontext, Eskalation und Wartungsfenster. Fleet Operator muessen sehen, was wo laeuft, welche Standorte driften und welche Sites hinterherhinken.
Nach aussen wird die Plattform als Summe aller unsichtbaren Handoffs erlebt. Genau deshalb muss jemand die Erfahrung ueber diese Grenzen hinweg designen.
Nicht Cluster zaehlen, sondern Nutzbarkeit messen
Wer nur Cluster zaehlt, misst die falsche Sache. Eine gute Plattform wird daran gemessen, wie wiederholbar, sicher und schnell der Weg in Produktion wird.
Sinnvolle Metriken sind:
- Lead Time vom genehmigten Request bis zum erreichbaren Workload
- Anzahl manueller Handoffs fuer Standard-Deployments
- Drift zwischen lokalem Zustand und genehmigtem Zielzustand
- Exception Rate, also wie oft Standardpfade zu Sonderfaellen werden
- Upgrade Lag ueber die Standortflotte
- MTTR mit klarer Ownership und Standortkontext
Diese Kennzahlen zeigen, ob die Plattform wirklich genutzt werden kann, oder ob sie nur aus vielen technisch korrekten Einzelteilen besteht.
Ein konkretes Implementierungsmuster
In einer VCF- und vSphere-Kubernetes-Service-Umgebung kann Consumer Intent ueber Plattform- oder Supervisor-APIs in einer governeden Namespace- oder VPC-Boundary landen. Innerhalb dieser Boundary laufen Container-Workloads auf VKS und VM-basierte Gateways oder Adapter ueber den VM Service. Angeschlossene Enterprise-Services wie DNS, Zertifikate, Connectivity Policy, Artefakte und Observability haben definierte Integrationspfade.
Das Produkt ist dabei nicht die eigentliche Lektion. Die tragbare Idee ist: Mache die Boundary konkret. Mache Shared Services konsumierbar. Mache Standortrealitaet modellierbar. Mache Lifecycle sichtbar.
Boundary. Contracts. Fleet.
Am Ende bleibt ein einfaches Betriebsmodell:
Boundary klaert, wer sicher was anfordern und besitzen darf: Identitaet, Quota, Netzwerkgrenze, Policy und Lifecycle-Posture.
Contracts machen Shared Services nutzbar, ohne jedes Mal neue Tickets und neue Sonderprozesse zu erzeugen: Adressierung, DNS, Zertifikate, Connectivity, Artefakte und Observability.
Fleet sorgt dafuer, dass viele Werke nicht als einzelne Spezialprojekte betrieben werden: Site Profiles, lokale Reconciliation, Upgrade-Wellen, Drift-Sichtbarkeit und Operating Metrics.
Der Cluster ist die Runtime. Die Plattform ist das Betriebsmodell, das diese Runtime fuer echte industrielle Standorte wiederholbar macht.
Industrial Edge Kubernetes wird dann erfolgreich, wenn Site Reality modeled, governed und repeatable wird.