Cloudera Data Engineering ist ein umfassender, cloud-nativer Dienst, der darauf ausgelegt ist, Unternehmensdaten-Teams zu befähigen, Datenpipelines sicher zu erstellen, zu automatisieren und zu skalieren, und zwar über verschiedene Umgebungen hinweg, einschließlich öffentlicher Clouds, lokaler Rechenzentren und hybrider Setups. Durch die Nutzung von Open-Source-Technologien wie Apache Spark, Apache Iceberg und Apache Airflow bietet es eine flexible und effiziente Plattform zur Verwaltung komplexer Daten-Workflows.
Hauptmerkmale und Funktionalitäten:
- Containerisiertes Apache Spark auf Iceberg: Ermöglicht skalierbare und verwaltete Datenpipelines, indem Spark-Workloads auf Iceberg in containerisierten Umgebungen ausgeführt werden, was Flexibilität und Portabilität sicherstellt.
- Self-Service-Orchestrierung mit Apache Airflow: Ermöglicht es Benutzern, komplexe Workflows über eine benutzerfreundliche Oberfläche zu entwerfen und zu automatisieren, was die Aufgabenverwaltung und Abhängigkeitskontrolle vereinfacht.
- Interaktive Sitzungen und externe IDE-Konnektivität: Unterstützt bedarfsgesteuerte interaktive Sitzungen für schnelles Testen und Entwickeln mit nahtloser Integration in externe integrierte Entwicklungsumgebungen (IDEs) wie VSCode und Jupyter Notebook.
- Eingebaute Change Data Capture (CDC): Sorgt für Datenaktualität, indem zeilenweise Änderungen von Quellsystemen erfasst und verarbeitet werden, was kontinuierliche Updates für nachgelagerte Anwendungen erleichtert.
- Metadaten-Management und Abstammung: Bietet umfassende Sichtbarkeit in Datenpipelines mit integriertem Metadaten-Management und Abstammungsverfolgung, was Governance und Compliance verbessert.
- Umfangreiche APIs und visuelle Fehlersuche: Bietet robuste APIs für Automatisierung und Integration sowie visuelle Werkzeuge für Echtzeitüberwachung und Leistungsoptimierung, was eine effiziente Fehlersuche unterstützt.
Primärer Wert und Problemlösung:
Cloudera Data Engineering adressiert die Herausforderungen bei der Verwaltung komplexer Datenpipelines, indem es eine einheitliche Plattform bietet, die die Produktivität steigert, die Datenintegrität sicherstellt und die Ressourcennutzung optimiert. Es befähigt Datenteams zu:
- Beschleunigung der Datenpipeline-Entwicklung: Durch die Automatisierung von Workflows und die Bereitstellung intuitiver Werkzeuge wird die Zeit und der Aufwand für den Aufbau und die Bereitstellung von Datenpipelines reduziert.
- Sicherstellung von Datenqualität und Governance: Integriertes Metadaten-Management und Abstammungsverfolgung bieten Transparenz und Kontrolle, was die Datengenauigkeit und Compliance sicherstellt.
- Optimierung von Kosten und Ressourcen: Funktionen wie Beobachtbarkeit auf Workload-Ebene, automatisches Skalieren und Zero-ETL-Datenfreigabe helfen bei der Überwachung und Optimierung der Pipeline-Kosten, was zu niedrigeren Gesamtbetriebskosten führt.
Durch die Vereinheitlichung der Verarbeitung strukturierter und unstrukturierter Daten mit offenen Standards ermöglicht Cloudera Data Engineering Organisationen, das volle Potenzial ihrer Datenressourcen zu nutzen, um fundierte Entscheidungen zu treffen und Innovationen voranzutreiben.
Verkäufer
ClouderaDiskussionen
Cloudera Data Engineering Community