Formular für Anfragen

Newsletter Anmeldung

BSVÖ: Barrierefrei erklärt! KI-gestützte Apps für Video- und Bildbeschreibungen Teil 1

  • barrierefei erklärt © BSVÖ

Bilder und Videos sind überall – in sozialen Medien, in Nachrichten, im Alltag. Doch wer nicht sieht, bleibt außen vor. Bild- und Videobeschreibungen übersetzen das Sichtbare in Sprache. So wird ein Video zu einer erzählten Geschichte, ein Foto zu einem erlebbaren Moment.

Wer sind die relevanten Player?

PiccyBot analysiert Fotos und kurze Videoclips und erstellt gesprochene Beschreibungen. Nutzeri:nnen können Fragen stellen und erhalten innerhalb weniger Sekunden Antworten. ViddyScribe und Subly orientieren sich laut eigener Aussage an Standards wie WCAG 2.2, ADA Title II und EAA, wobei Subly zusätzlich Batch‑Verarbeitung großer Videomengen anbietet. Weiters gibt es am Markt Apps wie beispielsweise Verbit, Phonetik AI und CaptionHub.

Die Marktlage zeigt, dass dieser Bereich stark wächst. Der globale Markt für KI‑gestützte Audio‑beschriebene Videos soll von rund 1,62 Mrd. USD in 2024 auf etwa 2,01 Mrd. USD in 2025 steigen, mit einer jährlichen Wachstumsrate von ca. 24 %.(Datenquelle) Dies deutet darauf hin, dass es noch viel Potenzial für neue Anwendungen gibt, insbesondere auch bedingt durch steigenden gesetzlichen Anforderungen an die Web Barrierefreiheit.

Wie funktioniert das technisch?

Damit eine App „versteht“, was auf einem Bild passiert, braucht es drei Hauptschritte: Sehen, Verstehen und Sprechen.

Sehen – Computer Vision: Hier analysiert ein sogenanntes neuronales Netz das Bild. Ein neuronales Netz ist ein Computerprogramm, das nach dem Prinzip menschlicher Gehirnzellen arbeitet: Es erkennt Muster, lernt aus Beispielen und trifft Vorhersagen. Für diese Analyse werden häufig Programmiersprachen wie Python zusammen mit Bibliotheken wie TensorFlow oder PyTorch genutzt. Das Netz erkennt Strukturen, Objekte, Personen, Farben oder Bewegungen und liefert eine Liste von Elementen wie „Person“, „Hund“ oder „Park“.

Verstehen – Sprachmodell: Das Sprachmodell setzt die erkannten Elemente in verständliche Sätze um, zum Beispiel: „Ein Kind spielt im Park mit einem Ball.“ Sprachmodelle sind KI-Systeme, die lernen, Texte zu bilden, Zusammenhänge zu erkennen und sprachlich korrekt wiederzugeben. Wenn sie auf Internettexten trainiert wurden, können sie auch wertende Begriffe wie „harmonisch“ oder „freundlich“ verwenden. Für barrierefreie Alt-Texte oder Audiodeskriptionen ist es jedoch wichtig, neutral zu bleiben – Bewertungen sind hier nicht erlaubt.

Sprechen – Text-to-Speech: Im letzten Schritt wandelt eine Text-to-Speech-Engine den Text in hörbare Sprache um. Sie achtet auf Betonung, Pausen und Verständlichkeit.

Diese technische Kette zeigt, warum Ergebnisse unterschiedlich ausfallen können: Je nach Trainingsdaten klingt die Beschreibung neutral oder wertend, präzise oder fehlerhaft.

zurück