Formular für Anfragen

Newsletter Anmeldung

BSVÖ: Barrierefrei erklärt! KI-gestützte Apps für Video- und Bildbeschreibungen Teil 2

  • barrierefei erklärt © BSVÖ

In Teil 1 BSVÖ: Barrierefrei erklärt! KI-gestützte Apps für Video- und Bildbeschreibungen Teil haben wir uns angesehen, wie KI-gestützte Medienbeschreibung funktioniert. In Teil 2 machen wir den Test. Hält PiccyBot, was es verspricht? 

Unser Testerlebnis mit PiccyBot

Wir haben die App Piccybot getestet. Wir haben eigene Fotos und Videos hochgeladen. Besonders gut gefiel uns, dass man Fragen stellen kann, zum Beispiel „Wie alt ist die Person auf dem Bild?“ Viele Fragen wurden erstaunlich präzise beantwortet, einige jedoch eher schlecht. Eine junge Person wurde auf einem Foto sogar als „zwischen 60 und 70 Jahre alte Person“ geschätzt. Solche extremen Ausreißer waren aber selten. Außerdem fiel uns auf, dass die App nicht nur beschreibt, was zu sehen ist, sondern auch wie es wirkt. In einer Szene hieß es: „Die Atmosphäre auf dem Bild wirkt harmonisch und ruhig.“ Dies widerspricht dem Prinzip neutraler Audiodeskription. Die KI interpretiert Stimmung und Gefühl – das kann interessant sein, wenn man die Wirkung eines Bildes erfahren möchte, ist aber für barrierefreie Beschreibungen nicht zulässig. Positiv ist, dass die Beschreibungen sehr detailliert, und gut verständlich sind; Fehler und Missinterpretationen treten jedoch gelegentlich auf.

Ausblick

KI‑gestützte Bild- und Videobeschreibungen werden künftig immer häufiger eingesetzt. Ihre Qualität verbessert sich, weil die Systeme kontinuierlich mit mehr Daten trainiert werden. Fortschrittliche Sprachmodelle setzen die erkannten Bildinhalte zu verständlichen Sätzen zusammen, und moderne Text-to-Speech‑Engines erzeugen daraus natürlich klingende Audio‑Narrationen. Das macht Videobeschreibungen für Nutzer*innen nachvollziehbarer und leichter verständlich. Eine mögliche Best Practice ist, dass KI die erste Version der Beschreibung liefert und Menschen sie prüfen und verfeinern – so bleiben die Inhalte korrekt, neutral und gut verständlich, und echte Zugänglichkeit entsteht.

 

zurück