CVRL

FFG COMET, 2023 – 2026

Computer vision and representation learning

Kontext und Motivation

In den letzten Jahren haben KI-Vision-Systeme enormes Potenzial gezeigt und beeindruckende Ergebnisse erzielt, primär aufgrund der schnellen Entwicklung neuer Deep-Learning-Methoden. Trotz des signifikanten Fortschritts in vielen, aber meist sehr spezialisierten Anwendungsfällen, haben KI-Vision-Systeme jedoch oft immer noch Probleme, wenn es um reale, komplexe und generalisierende Problemstellungen in der Industrie, Medizin, etc. geht.

Diese Einschränkungen von KI-Vision-Systemen können viele verschiedene Ursachen haben. Typischerweise entstehen sie durch eine zu geringe Menge an (qualitativen) Daten oder fehlende gelabelte Daten, die für die Modellentwicklung und das Training erforderlich sind. Aber auch schwierige Bedingungen (z. B. unterschiedliche Lichtverhältnisse oder Wetterbedingungen) oder die Kombination unterschiedlicher Datentypen (z. B. Kombination von Bild- und Textdaten oder Einbeziehung von klinischen Patientendaten) können zu Problemen führen. In solchen Fällen können sowohl klassische Computer Vision als auch Deep-Learning-Methoden in ihrer Leistungsfähigkeit beeinträchtigt werden oder sogar komplett versagen.

Zielsetzung

Das Hauptziel dieses Multi-Firm-Projektes ist es, KI-Vision-Systeme so weiterzuentwickeln und voranzutreiben, dass sie auch bei den oben beschriebenen Herausforderungen noch die gewünschten Ergebnisse erreichen. Insbesondere soll das in diesem Projekt durch folgende Zielsetzungen erreicht werden:

  • Transfer Learning
    Transfer Learning ist ein Machine-Learning-Verfahren, das sich darauf konzentriert, trainierte Modelle und Wissen, die beim Lösen einer Aufgabe erworben wurden, auf eine andere verwandte Aufgabe zu übertragen und anzuwenden. Eine der größten Herausforderungen dabei ist es, den Domain Shift, der aufgrund unterschiedlicher Datenmerkmale und Datenverteilungen in den verschiedenen Datensets vorhanden ist, zu identifizieren und diesem effektiv entgegenzuwirken. Insbesondere bei kleinen Datensätzen (z. B. nur wenigen Patienten mit spezifischen Symptomen oder einer kleinen Produktcharge in einem Qualitätskontrollsystem) können Transfer-Learning-Methoden die Ergebnisse signifikant verbessern.
  • Synthetische Daten generieren
    Um die Menge an Daten, die dem Machine Learning Prozess zur Verfügung stehen, zu erhöhen, können synthetische Daten zum ursprünglichen Datensatz hinzugefügt werden, entweder durch klassische Ansätze (regelbasierte Ansätze, Datenaugmentierung, Simulationen usw.) oder durch Verwendung generativer KI-Ansätze (Stable Diffusion Modelle, GANs usw.).
  • Multi-Source-Daten integrieren
    Viele Anwendungsfälle erfordern oder profitieren von der Kombination von Bilddaten mit Daten aus anderen Domänen bzw. Daten, die mit anderen Sensoren aufgenommen wurden. Beispiele dafür umfassen Stereo-Kameras oder TOF-Sensoren für 3D Computer Vision Aufgaben, Text für Szenenverständnis, klinischen Patientendaten, diverse Prozessparametern und viele mehr.

Erwartete Ergebnisse

  • Automatisierte Machine Learning Pipelines, mit Fokus auf Transfer Learning Methoden
  • Methoden zum Umgang mit Domain-Shift zwischen verschiedenen Datensätzen
  • Ressourceneffiziente (Kosten, Zeit, Energie) Generierung synthetischer Datensätze
  • Verschiedene Frameworks für die Integration von Multi-Source Daten

Fördergeber

Das Projekt wird im Rahmen von COMET – Competence Centers for Excellent Technologies durch BMK, BMAW, Land Oberösterreich und den wissenschaftlichen Partnern des SCCH gefördert. Das Programm COMET wird durch die FFG abgewickelt.

Schachner Clara

Research Project Manager Data Science
Research Team Lead Computer Vision and Representation Learning