banner
Heim / Nachricht / Cloudera zeigt den Weg zu verantwortungsvoller KI im großen Maßstab auf
Nachricht

Cloudera zeigt den Weg zu verantwortungsvoller KI im großen Maßstab auf

Oct 19, 2023Oct 19, 2023

Als Analyst beobachte ich Cloudera seit mehreren Jahren und habe ausführlich dazu Stellung genommen. Cloudera löst Datenmanagement-Herausforderungen in öffentlichen und privaten Clouds und ermöglicht Kunden die Verwaltung und Wertschöpfung aus Daten. Cloudera ist seit über einem Jahrzehnt führend im Bereich Big Data, verwaltet 25 Exabyte an Daten und wird von neun von zehn der größten globalen Unternehmen einer bestimmten Branche genutzt.

Cloudera hat sich im Laufe der Jahre weiterentwickelt: Cloudera 1.0 konzentrierte sich auf den Aufbau einer Open-Source-Unternehmensdatenplattform, Cloudera 2.0 brachte Hortonworks und Cloudera zusammen, um den Weg zur Hybrid Cloud zu beschleunigen, und Cloudera 3.0 schuf die erste echte Hybrid-Multi-Cloud-Datenplattform . In diesem Artikel erkläre ich, warum die Cloudera Data Platform (CDP) für die neue Welt der Unternehmens-KI gut aufgestellt ist.

Was könnte schiefgehen?

Generative KI verwendet Algorithmen, sogenannte Large Language Models (LLMs), um mithilfe natürlicher Sprachanweisungen neue Inhalte in Form von Text, Bildern, Audio oder Code zu erstellen.

Generative KI-Tools wie das schlagzeilenträchtige ChatGPT trainieren auf großen Datenmengen aus dem Internet mit zweifelhafter Datenqualität, Inhalt, Eigentum und Datenschutz. Wie viele von Ihnen erfahren haben, darunter kürzlich auch ein unglücklicher Anwalt, präsentiert ChatGPT überzeugend wahrheitsgemäße Ergebnisse neben völligen Fehlinformationen, sodass der Benutzer die Fakten von der Fiktion unterscheiden kann.

In einem Unternehmensumfeld ist dies eindeutig inakzeptabel. Für Unternehmen hängt der Erfolg generativer KI und der damit verbundenen LLMs von der Qualität und Vertrauenswürdigkeit der Trainingsdaten ab.

Hybride Cloud – alle Daten sind für die Unternehmens-KI geeignet

Bei CDP hat Cloudera die hybride Vision mit einer einzigen Steuerungsebene umgesetzt, die ein gemeinsames Sicherheits- und Governance-Framework für die gesamte Plattform und alle Datendienste verwaltet. Die CDP-Plattform kann Arbeitslasten, Daten und die zugehörigen Metadaten bidirektional über öffentliche und private Clouds verschieben.

CDP Open Data Lakehouse bietet den „Grunddaten“ Sicherheit, Governance und den Unternehmenskontext für die Bereitstellung mit Grundmodellen vor Ort oder in der Cloud.

Vertrauen in die KI beginnt mit dem Vertrauen in Daten

Damit Unternehmens-KI erfolgreich sein kann, muss Vertrauen in die Ergebnisse vorhanden sein. Vertrauen bedeutet, den zugrunde liegenden Daten zu vertrauen, die zum Trainieren der Modelle verwendet werden. Als Teil der CDP-Architektur ermöglicht Shared Data Experience (SDX) gemeinsame Sicherheit, Herkunft und Governance für alle Analysen sowie öffentliche und private Clouds.

SDX verwendet zwei Open-Source-Projekte, Apache Ranger, um Sicherheitsrichtlinien zu definieren, zu verwalten und zu verwalten, und Apache Atlas, für Metadatenverwaltung und Governance, um einen Katalog von Assets zu erstellen, zu klassifizieren und zu verwalten.

SDX umfasst einen Datenkatalog zur Verwaltung und Erkennung aller Datenbestände. Die Daten werden profiliert und mit umfangreichen Metadaten – einschließlich betrieblicher, sozialer und geschäftlicher Kontexte – angereichert, wodurch vertrauenswürdige und wiederverwendbare Datenbestände erstellt und auffindbar gemacht werden.

CDP verfügt über die Funktionalität, um ganzheitliche Sicherheit, Governance und Compliance über den gesamten Datenlebenszyklus hinweg zu ermöglichen, einschließlich maschineller Lernmodelle in Produktionsumgebungen.

Der Schlüssel liegt hier in der Fähigkeit, die Modellgenerierung, die zum Trainieren des Modells verwendeten Daten und die Datenherkunft zu erklären – eine genaue und vollständige Datenquelle bis hin zur Abstammung der Produktionsumgebung.

BYO-Version von GPT- und Foundation-Modellen

Viele Kunden nutzen bereits ML-Funktionen als Teil von CDP. Der Machine Learning Service von Cloudera ist gut etabliert und deckt den gesamten ML-Lebenszyklus von der experimentellen Datenwissenschaft bis hin zum Modelltraining und der Bereitstellung ab. Cloudera bietet eine Bibliothek mit End-to-End-Prototypen für angewandtes maschinelles Lernen (AMPs), um Kunden den Einstieg in die Anwendungsentwicklung zu erleichtern.

Bei der jüngsten Analystenveranstaltung Six Five Summit kündigte Cloudera den LLM Chatbot Augmented with Enterprise Data als Blaupause für generative KI großer Sprachmodelle an, als Reaktion auf Kunden, die eine Version von GPT und Basismodellen intern erstellen möchten, anstatt Daten darauf zu trainieren öffentliche API-Plug-ins.

Mit dem Cloudera CDP LLM, AMP können Kunden KI-Anwendungen erstellen, die auf jedem Open-Source-LLM mit proprietären Daten basieren und alle intern im Unternehmen gehostet werden. Der AMP ist in der öffentlichen und privaten CDP-Cloud kostenlos.

Unter der Decke nutzt Cloudera Python-Abhängigkeiten mit Open-Source-Modellen des Partners Hugging Face, einer Open-Source-Vektordatenbank für die semantische Suche, fügt die Wissensdatenbank des Unternehmens in die Vektordatenbank ein und erstellt und führt darauf eine Python-Webanwendung aus. Cloudera verwendete H2O-Modelle, NovusDB, CML-Dokumente und Gradio für die UI-Schnittstelle. Alles ist anpassbar und an einen bestimmten Anwendungsfall anpassbar, wobei jedes Modell, jede Daten-, Datenbank- und Anwendungsframework verwendet werden kann. Mit diesem AMP und CML verfügt jeder Entwickler nun über die Tools, um Open-Source-LLM-Anwendungen für das Unternehmen zu erstellen und zu hosten.

Einpacken

Cloudera ist einzigartig darin, ein hybrides Open-Data-Lake-House über öffentliche und private Clouds in großem Maßstab anzubieten. CDP ist eine integrierte Plattform, die die Funktionen eines Data Warehouse und eines Data Lake bietet.

Diese einzige Plattform bietet die Grundlage für Business Intelligence, maschinelles Lernen und KI-Lösungen und nutzt gleichzeitig Open-Source-Innovationen wie Iceberg, Airflow und Yunikorn. CDP bietet außerdem die Flexibilität eines hybriden Multi-Cloud-Modells für die Bereitstellung sowohl in öffentlichen als auch in privaten Clouds.

In der neuen Welt der Unternehmens-KI ermöglicht CDP Unternehmens-KI für alle verfügbaren Daten mithilfe grundlegender Modelle und LLMs für generative KI-basierte Anwendungen auf sichere, vertrauenswürdige und verantwortungsvolle Weise.

Als Chief Data Officer (CDO) benötigen Sie die volle Fähigkeit zum Datenlebenszyklus, was bedeutet, Daten effizient und stabil zu speichern, Daten in Data Lake Houses weiterzuleiten und zu aggregieren sowie ML-Algorithmen und KI anzuwenden, um umsetzbare Erkenntnisse für die Geschäftseinheiten zu gewinnen. Sie könnten eine Schar erstklassiger Tools zusammenstellen und Schwierigkeiten haben, sie zusammenzuschustern, aber viel Glück dabei, gemeinsame Sicherheit, Abstammung und Governance zu erreichen. Cloudera CDP bietet Ihnen sofort alles, was Sie brauchen, und sollte auf Ihrer Auswahlliste stehen.

Moor Insights & Strategy bietet oder hat kostenpflichtige Dienstleistungen für Technologieunternehmen wie alle Forschungs- und Analyseunternehmen der Technologiebranche bereitgestellt. Diese Dienstleistungen umfassen Recherche, Analyse, Beratung, Consulting, Benchmarking, Akquise-Matchmaking sowie Video- und Vortragssponsoring. Das Unternehmen hatte oder unterhält derzeit bezahlte Geschäftsbeziehungen mit 8×8, Accenture, A10 Networks, Advanced Micro Devices, Amazon, Amazon Web Services, Ambient Scientific, Ampere Computing, Anuta Networks, Applied Brain Research, Applied Micro, Apstra, Arm, Aruba Networks (jetzt HPE), Atom Computing, AT&T, Aura, Automation Anywhere, AWS, A-10 Strategies, Bitfusion, Blaize, Box, Broadcom, C3.AI, Calix, Cadence Systems, Campfire, Cisco Systems, Clear Software, Cloudera , Clumio, Cohesity, Cognitive Systems, CompuCom, Cradlepoint, CyberArk, Dell, Dell EMC, Dell Technologies, Diablo Technologies, Dialogue Group, Digital Optics, Dreamium Labs, D-Wave, Echelon, Ericsson, Extreme Networks, Five9, Flex, Foundries .io, Foxconn, Frame (jetzt VMware), Fujitsu, Gen Z Consortium, Glue Networks, GlobalFoundries, Revolve (jetzt Google), Google Cloud, Graphcore, Groq, Hiregenics, Hotwire Global, HP Inc., Hewlett Packard Enterprise, Honeywell, Huawei Technologies, HYCU, IBM, Infinidat, Infoblox, Infosys, Inseego, IonQ, IonVR, Inseego, Infosys, Infiot, Intel, Interdigital, Jabil Circuit, Juniper Networks, Keysight, Konica Minolta, Lattice Semiconductor, Lenovo, Linux Foundation, Lightbits Labs , LogicMonitor, LoRa Alliance, Luminar, MapBox, Marvell Technology, Mavenir, Marseille Inc, Mayfair Equity, Meraki (Cisco), Merck KGaA, Mesophere, Micron Technology, Microsoft, MiTEL, Mojo Networks, MongoDB, Multefire Alliance, National Instruments, Neat , NetApp, Nightwatch, NOKIA, Nortek, Novumind, NVIDIA, Nutanix, Nuvia (jetzt Qualcomm), NXP, onsemi, ONUG, OpenStack Foundation, Oracle, Palo Alto Networks, Panasas, Peraso, Pexip, Pixelworks, Plume Design, PlusAI, Poly (ehemals Plantronics), Portworx, Pure Storage, Qualcomm, Quantinuum, Rackspace, Rambus, Rayvolt E-Bikes, Red Hat, Renesas, Residio, Samsung Electronics, Samsung Semi, SAP, SAS, Scale Computing, Schneider Electric, SiFive, Silver Peak (jetzt Aruba-HPE), SkyWorks, SONY Optical Storage, Splunk, Springpath (jetzt Cisco), Spirent, Splunk, Sprint (jetzt T-Mobile), Stratus Technologies, Symantec, Synaptics, Syniverse, Synopsys, Tanium, Telesign, TE Connectivity , TensTorrent, Tobii Technology, Teradata, T-Mobile, Treasure Data, Twitter, Unity Technologies, UiPath, Verizon Communications, VAST Data, Ventana Micro Systems, Vidyo, VMware, Wave Computing, Wellsmith, Xilinx, Zayo, Zebra, Zededa, Zendesk , Zoho, Zoom und Zscaler. Patrick Moorhead, Gründer, CEO und Chefanalyst von Moor Insights & Strategy, ist Investor in dMY Technology Group Inc. VI, Fivestone Partners, Frore Systems, Groq, MemryX, Movandi und Ventana Micro., MemryX, Movandi und Ventana Micro.

Was könnte schiefgehen? Hybride Cloud – alle Daten sind für die Unternehmens-KI geeignet. Vertrauen in die KI beginnt mit dem Vertrauen in Daten. BYO-Version von GPT und Basismodelle. Abschluss