Vertraulich · Interne Präsentation · 2025

KI-gestützte
CAD-Diagramm
Analyse

Automatisierte Auswertung hochauflösender CAD-Konstruktionszeichnungen mittels großer Sprachmodelle (LLM) — vollständig intern, sicher und offline.

Version 2 · Lokal GPU RTX 4090 100% Offline Datenschutz DSGVO
REV. 2 // FREIGEGEBEN MASSSTAB 1:50 // SEITE 3/12
2
Versionen
Cloud → Lokal
0%
Datenleck
Bei lokaler Lösung
24GB
GPU VRAM
RTX 4090 Lokal
Skalierbar
Unbegrenzte PDFs
Abschnitt 01 / Cloud-Lösung

Digital Ocean
Cloud — Was steckt dahinter?

In Version 1 wurde das KI-Sprachmodell (LLM) auf einem Server bei Digital Ocean — einem amerikanischen Cloud-Anbieter — gehostet. Mitarbeiter stellten über eine Webseite Fragen zu den CAD-Zeichnungen. Die Daten reisten dabei über das öffentliche Internet.

⚠️
Kernproblem: Daten verlassen das Unternehmen
Jede CAD-Zeichnung, jede Frage und jede Antwort wurde über das öffentliche Internet an einen externen Server in den USA gesendet. Dies ist mit den internen IT-Sicherheitsrichtlinien nicht vereinbar.
🏭
Unternehmen
CAD-Daten intern
⚡ Internet
Datentransfer
☁️
Digital Ocean
USA / Extern

Was müsste das Unternehmen ändern, um Cloud zu nutzen?

🔓 Firewall-Ausnahmen

Der Internetverkehr zu den Digital Ocean Servern müsste explizit durch die Unternehmens-Firewall genehmigt werden. Dies erfordert eine Anpassung der IT-Sicherheitsrichtlinien.

📝 Datenverarbeitungsvertrag

Mit Digital Ocean müsste ein rechtsgültiger Data Processing Agreement (DPA) nach DSGVO-Standard abgeschlossen werden. Ohne diesen Vertrag ist die Cloud-Nutzung in der EU nicht legal.

🔐 VPN / Verschlüsselung

Der gesamte Datenverkehr müsste über ein gesichertes VPN-Tunnel oder Ende-zu-Ende-Verschlüsselung (TLS 1.3) laufen. Ohne Verschlüsselung reisen CAD-Daten im Klartext.

🛡️ Sicherheitsaudit

Die IT-Abteilung müsste regelmäßige externe Sicherheitsaudits beim Cloud-Anbieter einfordern und deren Zertifizierungen (ISO 27001, SOC 2) prüfen.

📋 Compliance-Prüfung

Rechtliche Prüfung durch die Rechtsabteilung ob sensible CAD-Konstruktionsdaten überhaupt auf einem US-Server gespeichert werden dürfen (CLOUD Act Risiko).

🌐 Internet-Abhängigkeit

Bei Internetausfall steht das gesamte Tool still. Keine Redundanz ohne teure Multi-Region-Architektur beim Cloud-Anbieter.

Werden unsere Daten zum Training fremder KI-Modelle verwendet?

🤔
Die unbequeme Wahrheit über externe LLMs
Es kommt darauf an, welchen externen KI-Dienst man nutzt und welche Vertragsbedingungen gelten. Es gibt zwei Kategorien:
✅ Selbst gehostetes LLM (unser Fall)

In Version 1 wurde ein eigenes, selbst verwaltetes Modell auf Digital Ocean betrieben. Dieses Modell lernt nicht aus unseren Daten — es ist eingefroren nach dem Training. Die Daten werden verarbeitet, aber nicht zum Nachtraining genutzt. Allerdings liegen sie physisch auf fremden Servern.

❌ Öffentliche KI-APIs (z.B. ChatGPT)

Wenn man stattdessen direkt die API von OpenAI, Google, etc. nutzen würde: Diese Anbieter können Daten für ihr Training verwenden, sofern im API-Vertrag nicht explizit ausgeschlossen. Das hätte katastrophale Konsequenzen für Geschäftsgeheimnisse.

Unser Ansatz ist sicherer
Wir nutzen ein open-source Modell, das vollständig selbst kontrolliert wird. Kein Training mit unseren Daten — weder in Version 1 noch in Version 2.
Abschnitt 02 / Lokale Lösung

Version 2:
Lokal & Sicher

▸ Entwicklungsweg: Cloud → Intern
☁️
Version 1
Digital Ocean
🚫
Blocker
Kein Internet
🔄
Entscheidung
Neuplanung
🖥️
Version 2
Interner Server
🔒
Ergebnis
100% Offline
Kriterium ☁️ Version 1 — Cloud 🖥️ Version 2 — Lokal (GPU-Server)
Datensicherheit Daten reisen über Internet zu externem Server Daten verlassen das Unternehmensnetz niemals
Internet-Abhängigkeit Volles Internet erforderlich, Single Point of Failure Funktioniert komplett offline, auch bei Internetausfall
Compliance / DSGVO Aufwändige Verträge nötig (DPA, CLOUD Act Problem) Volle Datenkontrolle, DSGVO-konform ohne Zusatzaufwand
Laufende Kosten Monatliche Cloud-Kosten, skalieren mit Nutzung Einmaliger Hardware-Kauf, dann laufend günstig
Setup-Aufwand Schnell deploybar, wenig Hardware-Aufwand Höherer Initialaufwand: Server, Treiber, Setup
Latenz / Geschwindigkeit Abhängig von Internetverbindung Lokales Netzwerk: sehr niedrige Latenz, schnell
Daten-Training Risiko Modell auf fremdem Server (kein Training, aber physischer Zugriff möglich) Absolut kein Risiko — alle Daten bleiben intern
Wartung / Updates Managed Service — Anbieter kümmert sich Interne IT oder Entwickler zuständig
🎯
Fazit: Warum Lokal die richtige Wahl ist
Die lokale Lösung ist zwar bei der Erstinstallation aufwändiger, bietet jedoch eine fundamentale Eigenschaft, die mit keiner Cloud-Lösung erreichbar ist: Vollständige Datensouveränität. CAD-Konstruktionsdaten sind oft das wertvollste Kapital eines Unternehmens. Sie verlassen nie das Gebäude — weder heute noch in Zukunft.
Abschnitt 03 / Hardware

Warum brauchen wir
eine dedizierte GPU?

🐌
CPU Allein
ANTWORTZEIT (7B MODELL)
8–20 Min
  • ⚡ 8–16 Kerne, sequenziell
  • 📦 Hoher RAM-Bedarf (64GB+)
  • 🔥 Überhitzungsgefahr bei Dauerlast
  • ❌ Nicht praxistauglich für Produktion
VS
NVIDIA RTX 4090
ANTWORTZEIT (7B MODELL)
5–15 Sek
  • ⚡ 16.384 CUDA-Kerne, massiv parallel
  • 📦 24 GB dedizierter VRAM
  • 🌡️ Für KI-Dauerlast konzipiert
  • ✅ Produktionstauglich

Die technische Erklärung (vereinfacht)

Ein KI-Sprachmodell besteht aus Milliarden von Zahlenwerten (Gewichten). Wenn das Modell eine Frage beantwortet, müssen diese Milliarden von Zahlen in winzigen Zeitfenstern multipliziert und addiert werden — das sind sogenannte Matrix-Multiplikationen.

Eine CPU hat wenige, sehr clevere Kerne (z.B. 16 Stück), die sich gut für viele verschiedene Aufgaben eignen. Für KI-Berechnungen ist das jedoch wie ein Umzug mit einem einzigen LKW — stur, langsam.

Eine GPU hingegen hat Tausende einfache Kerne, die alle gleichzeitig rechnen können — wie ein Umzug mit 16.000 Trägern. Diese parallele Architektur wurde ursprünglich für Grafik entwickelt, eignet sich aber perfekt für die Matrixrechnung bei KI.

Analogie: Parallelverarbeitung
CPU — Seriell
× 16 Kerne
GPU — Massiv Parallel
× 16.384 Kerne
Abschnitt 04 / Technische Architektur

Hochrangige
Systemarchitektur

▸ Kompletter Verarbeitungsfluss — Ende-zu-Ende
📁
Eingabe
PDF Upload
🔍
Verarbeitung
OCR Engine
🖼️
Analyse
Bild-Parsing
💾
Optimierung
Cache-System
🧠
KI-Kern
LLM (GPU)
💬
Ausgabe
Antwort

Schichtweise Architektur

Schicht 1 — Benutzeroberfläche (Frontend)
🌐 Webseite (intern)
📂 PDF-Auswahl
💬 Chat-Interface
📊 Ergebnis-Anzeige
Schicht 2 — Dokumentenverarbeitung (OCR & Parsing)
🔍 OCR-Engine (Texterkennung)
📐 Diagramm-Erkennung
🔢 Bemaßungs-Parser
📄 PDF → Bild Konvertierung
🗺️ Seitenstruktur-Analyse
Schicht 3 — Caching & Speicher
💾 Verarbeitungs-Cache
🔄 Sitzungs-Kontext
📋 Analyse-Ergebnisse
🗃️ Vektor-Datenbank (Embeddings)
Schicht 4 — KI-Modell (GPU-Server)
🧠 LLM (Multimodal)
👁️ Vision-Encoder
⚡ CUDA-Inferenz
📏 Kontext-Verwaltung
🔁 Sequentielle Analyse
Schicht 5 — Internes Netzwerk (komplett offline)
🏢 Unternehmens-LAN
🔒 Firmen-Firewall
👤 Active Directory / Auth
🌐 Kein Internet-Zugriff
🔍 Was ist OCR und warum brauchen wir es?

OCR (Optical Character Recognition / Optische Zeichenerkennung) ist die Technologie, die Bilder und gescannte PDFs in lesbaren Text umwandelt. CAD-Zeichnungen sind als Bilder gespeichert — ein Computer sieht nur Pixel. OCR extrahiert Texte, Zahlen, Bemaßungen und Beschriftungen, damit das KI-Modell sie verstehen kann. Ohne OCR wäre die Analyse der CAD-Daten nicht möglich.

💾 Was ist Caching und warum ist es wichtig?

Wenn eine CAD-Datei einmal analysiert wurde, speichert das System die Ergebnisse zwischen (Cache). Wird dieselbe Datei erneut abgefragt, muss das KI-Modell nicht nochmals die gesamte Analyse von Null beginnen. Dies reduziert Antwortzeiten von Minuten auf Sekunden und spart enorm GPU-Rechenzeit bei wiederkehrenden Fragen.

Abschnitt 05 / Roadmap

Zukunft &
Weiterentwicklung

Mögliche zukünftige Änderungen

Kurzfristig
Modell-Upgrades
Neue, bessere open-source Modelle erscheinen regelmäßig. Das System kann durch Austausch der Modelldatei aktualisiert werden — kein Neuprogrammieren erforderlich. Dies ist vergleichbar mit einem Software-Update.
Mittelfristig
Erweiterte Funktionen
Vergleich mehrerer CAD-Revisionen, automatische Änderungserkennung zwischen Versionen, Export von Analysen als PDF-Berichte, mehrsprachige Ausgaben.
Langfristig
ERP / PLM Integration
Direkte Anbindung an SAP, Teamcenter oder andere interne Systeme. Automatische Prüfung ob Stücklisten mit CAD-Zeichnungen übereinstimmen.

Kann ein externer Freelancer helfen?

Ja — mit klaren Einschränkungen
Das System ist bewusst modular aufgebaut, sodass einzelne Teile unabhängig voneinander angepasst werden können.
✅ Was ein Freelancer problemlos kann
  • Frontend-Anpassungen (Weboberfläche, Design)
  • Neue Fragetypen oder Prompt-Templates hinzufügen
  • Exportfunktionen (Excel, PDF Berichte)
  • Benutzer-Authentifizierung anpassen
  • Modell durch neuere Version ersetzen
⚠️ Was besondere Sorgfalt erfordert
  • Zugang zum internen Netzwerk — nur via gesichertem VPN, nie physisch allein
  • Einblick in CAD-Daten nur unter NDA und IT-Aufsicht
  • Kern-Architektur-Änderungen sollten dokumentiert übergeben werden
▸ Modularität — Welche Teile sind unabhängig austauschbar?
🎨
UI/Frontend
Leicht anpassbar
🧠
LLM Modell
Austauschbar
🔍
OCR Engine
Moderat komplex
🏗️
Kern-Backend
Fachkenntnisse nötig
Abschnitt 06 / Häufige Fragen

Häufig gestellte
Fragen (FAQ)

Was genau macht das System mit unseren CAD-Zeichnungen?
Das System liest die PDF-CAD-Dateien, extrahiert Texte, Maße und visuelle Informationen via OCR und leitet diese an das KI-Modell weiter. Das Modell analysiert Inhalt, Struktur und technische Details und beantwortet Fragen in natürlicher Sprache. Die Originaldateien werden nie verändert.
Wie genau ist das KI-Modell bei technischen Zeichnungen?
Die Genauigkeit hängt von der Qualität der CAD-PDFs ab (Auflösung, Lesbarkeit). Bei klaren, hochwertigen Zeichnungen erreichen moderne multimodale Modelle sehr hohe Genauigkeit bei Textauswertung und Strukturerkennung. Komplexe 3D-Interpretationen erfordern jedoch immer menschliche Prüfung. Das System ist ein Assistenzwerkzeug, kein autonomer Entscheider.
Was passiert, wenn der GPU-Server ausfällt?
Das Tool steht temporär nicht zur Verfügung, bis der Server neu gestartet wird. Empfehlung: Regelmäßige Wartungsfenster einplanen, automatischen Neustart bei Absturz konfigurieren, und für kritische Szenarien eine Backup-Strategie entwickeln (z.B. zweiter Server oder temporäre Cloud-Nutzung im Notfall).
Können mehrere Mitarbeiter gleichzeitig das System nutzen?
Ja, jedoch mit Einschränkungen. Gleichzeitige Anfragen werden in eine Warteschlange eingereiht. Die RTX 4090 kann abhängig von Anfragekomplexität 2–4 gleichzeitige Anfragen verarbeiten. Für sehr hohe Nutzerzahlen (20+ gleichzeitig) könnte eine zweite GPU oder ein leistungsfähigerer Server (z.B. A100) nötig werden.
Welche CAD-Formate werden unterstützt?
Aktuell werden PDF-basierte CAD-Zeichnungen verarbeitet. Dies sind die standardisierten Export-Formate aus AutoCAD, Solidworks, CATIA, etc. Native CAD-Formate (.dwg, .stp) werden in Version 2 nicht direkt unterstützt, können aber zuvor nach PDF konvertiert werden.
Ist das System DSGVO-konform?
Version 2 (lokal) ist von Natur aus DSGVO-freundlich: Alle Daten verbleiben auf unternehmenseigenen Servern innerhalb der EU. Es findet keine Übermittlung an Dritte statt. Personenbezogene Daten in CAD-Dokumenten (falls vorhanden) werden nicht nach außen übertragen. Eine formale DSGVO-Datenschutzfolgeabschätzung (DSFA) wird empfohlen.
Wie lange dauert die Analyse eines CAD-Dokuments?
Die Erstanalyse einer mehrseitigen CAD-PDF auf der RTX 4090 dauert je nach Komplexität und Seitenanzahl zwischen 30 Sekunden und 5 Minuten. Wiederholte Anfragen zur selben Datei werden aus dem Cache beantwortet und dauern nur noch 2–10 Sekunden.
Wie wird das System bei neuen Mitarbeitern zugänglich gemacht?
Neue Nutzer benötigen lediglich einen Webbrowser und Zugang zum internen Netzwerk. Es ist keine spezielle Software-Installation auf dem Arbeitsplatzrechner nötig. Der Zugang kann über das bestehende Active Directory / SSO-System gesteuert werden.
Was kostet die lokale Lösung im Vergleich zur Cloud?
Einmalig (Hardware): GPU-Server mit RTX 4090 ca. 5.000–8.000 € (einmalig).
Laufend: Strom + IT-Betrieb ca. 50–100 €/Monat.
Cloud-Alternative: Vergleichbare GPU-Cloud-Kapazität ca. 500–1.500 €/Monat laufend.
→ Ab ca. 6–12 Monaten amortisiert sich die lokale Lösung gegenüber der Cloud.
Ist das Open-Source-Modell qualitativ vergleichbar mit ChatGPT?
Für technisch-fachliche Aufgaben wie CAD-Analyse haben aktuelle open-source Modelle (Llama 3, Mistral, Qwen-VL etc.) erheblich aufgeholt und erzielen für unsere Anwendung sehr gute Ergebnisse. ChatGPT bleibt in allgemeinen Konversationsaufgaben leicht überlegen, bietet jedoch nicht die Datenschutz-Garantien, die für diese Anwendung unabdingbar sind.
Zusammenfassung
Sicherheit

Version 2 (lokal) ist die einzig vertretbare Option für ein Unternehmen, das seine CAD-Konstruktionsdaten als strategischen Wert schützen möchte. Keine externen Datenübertragungen, keine Abhängigkeit von Cloud-Anbietern.

Technologie

Die RTX 4090 GPU ist die kosteneffizienteste Hardware für lokale KI-Inferenz. Das System kombiniert OCR, multimodales KI-Modell und intelligentes Caching zu einer robusten Analyseplattform.

Zukunft

Das modulare Design erlaubt schrittweise Erweiterungen ohne kompletten Neuaufbau. Modell-Updates, neue Funktionen und externe Unterstützung sind möglich — unter Wahrung der Datensicherheit.