Multimodale KI: Text-, Bild- und Audiosysteme | GAUAB