Die folgende Tabelle listet einige der Vorteile der Verklanglichung von Daten im Vergleich mit der visuellen Darbietung, nennt aber auch die, zum Teil daraus resultierenden, Nachteile
Für akustische Datenvermittlung | Für optische Signalübertragung |
Bei einer akustischen Datenübermittlung muss der Empfänger nicht umbedingt zum Sender schauen, sondern kann währenddessen seine Aufmerksamkeit an eine andere Stelle richten. Zum Beispiel bei ärztlichen Operationen ist dies sinnvoll, wenn der Arzt seine Augen auf die operierende Stelle richten muss und nicht auf Monitore schauen kann. Allgemein also bei solchen Gelegenheiten, bei denen der Gesichtssinn schon eine Aufgabe hat. | Indirekt daraus folgend, dass man nicht hinsehen muss, ergibt sich, dass es auch schwer fällt die Daten nicht zu empfangen. Gleich zusammen mit einer Lösung des Problemes ausgedrückt: Man muss für persönlichen Daten, die also nur einen oder nur bestimmte Empfänger haben sollen, eben jenen Personen einen Kopfhörer geben, über den sie die Daten isoliert empfangen können. Das menschliche Ohr ist zwar in der Lage bestimmte Stimmen aus einer größeren Anzahl auszufiltern, allerdings erfordert dies Konzentration und ist nur bis zu einem gewissen Grade möglich. |
Sehr damit zusammenhängend und nur wegen der Übersichtlichkeit von dem vorherigen Punkt getrennt ist der Vorteil, dass auch Leute noch "in der zweiten Reihe" die Daten aufnehmen können. Bei akustischen Reizen ist es nicht weiter hinderlich wenn einige Personen oder Objekte die Sichtlinie verperren, ein akustisches Signal zu blockieren ist deutlich schwerer. | Genauso ist es allerdings auch sehr hinderlich, wenn verschiedene Daten auf begrenztem Raum an verschiedene Empfänger gesendet werden sollen. Ein Museum bräuchte so zum Beispiel zwingend einzelne Räume für jedes Kunstwerk, während viele einfache Gemälde, auf der selben Fläche untergebracht, sich in ihrer Wirkung nicht gegenseitig behindern. |
Ein weiterer Vorteil ist der, dass Geräusche nicht nur über einfache Hindernisse, sondern auch über größere Entfernungen hinweg wahrnehmbar sind. Schon fast klassisches Beispiel sind hier die Kirchturmglocken, welche dem gesamten Dorf mancherorts noch die Uhrzeit verkünden, auch wenn das Ziffernblatt der Uhr schon nicht mehr zu sehen ist. Als Ausnahmen könnte man hier vielleicht den Leuchtturm oder ähnliche Beispiele finden, jene sind aber weit mehr von den Lichtverhältnissen abhängig als etwa die Glockensignalen vom Wind. | Dafür allerdings sind optische Signale, besonders die unveränderlichen, wesentlich leichter aufzuzeichnen als ihre akustischen Verwandten. Braucht man für die Zweiten bereits ein elektronisches Gerät, so genügen für visuelle Reize in vielen Fällen noch Bleistift und Papier. Um Frequenzen und damit verschiedene Töne aufzuzeichnen benutzt man nicht zuletzt sogar optische Mittel wie eben eine Tonleiter. |
Mit unseren Ohren lassen sich zudem mehr Parameter (siehe nächste Aufgabe) gleichzeitig erfassen als mit den Augen, die kaum über die Ortskoordinate (X-,Y-,Z-Achse), die Farbe und den Zeitpunkt hinauskommen. | Auf der anderen Seite empfinde ich das optische Sinnesorgan als deutlich präziser, auch wenn das unter Umständen an Gewöhnung und persönlichen Fähigkeiten liegen mag (zum Beispiel wäre das absolute Gehör, also dass man intuitiv den Ton bestimmen kann, ein Gegenbeispiel, wenngleich ein seltenes). Gerade bei Diagrammen aber bringt die Einzeichnung von Orientierungslinien von markanten Werten, besonders in Koordinatensystemen, noch eine zusätzliche Erleichterung. In der Akustik lassen sich solche Vergleichswerte kaum ohne Behinderung des eigentlichen Signales einfügen, oder höchstens ein einziger Grundtakt. |
Ein erster und offensichtlicher Faktor ist die Tonhöhe. Sie lässt sich gut
zur Übertragung von Daten nutzen, kann man doch unterschiedlichen Frequenzen leicht und intuitiv
unterscheiden. Der für den Menschen hörbare Bereich deckt mit einer Größe von 20Hz bis zu
16kHz1 einen ausreichend großen Bereich ab. Besonders zum Wiedergeben von sich normalerweise stetig ändernden Informationen ist dieser Parameter gut geeignet, da eine plötzliche Änderung, somit eine Abweichung vom Normalzustand, leicht zu erkennen ist. |
Ebenfalls sinnvoll einzusetzen ist die Tonlänge, also wie lange einzelne oder mehrere gebundene Töne gehalten werden bis sie von einer kurzen Pause vom nächsten Ton getrennt werden. Diese Pause kann durchaus auch nahezu ganz verschwinden bis zu einem andauernden Rattern. Zur Nutzbarkeit gilt ähnliches wie bei der Tonhöhe, die Länge ist allerdings noch etwas besser dazu geeignet periodische Vorgänge zu übermitteln, was einem Rhythmus entspräche. Denn hier merkt man intuitiv auch eine kleine Änderung im Muster. |
Aus der Musik bekannt ist dabei der Grundtakt, der sozusagen im Hintergrund
noch mitläuft. Er eignet sich unter Umständen als akustische Hilfslinie, wie in Aufgabe b)
beschrieben. Eine Veränderung des Grundtaktes über die Zeit könnte allerdings zu Verwirrungen im
Zusammenhang mit der Tonlänge führen und eignet sich deshalb nur in bestimmten Fällen, etwas wenn
ein neuer Zusammenhang dargestellt werden soll sozusagen als Themawechsel. Der visuelle Gegenpartnwäre hier ein Monitor auf dem alle paar Sekunden die anzuzeigende Information wechselt. Der Grundtakt wäre dann in gewisser Weise eine kodierte Überschrift des Signales. |
Ebenso noch zu dem angesprochenen Bereich zählt der Übergang zwischen den einzelnen Töne, besonders
wieder in Verbindung mit der Tonlänge und den damit zusammenhängenden Pausen. So gäbe es einen
Unterschied zwischen sofortigem Wechsel oder einem An- und Abklingen. Dieser Parameter ist allerdings relativ zeitaufwendig und es sind kaum mehr als diese zwei Zustände zu unterscheiden. Er eignet sich deswegen nur sehr bedingt. |
Weiterhin kann hier der markante Klang eines spielenden Instrumentes genannt
werden, wobei dieses «Instrument» hier abstrakter gesehen werden soll, so dass auch Stimmen oder
markante Geräusche in diese Kategorie fallen. Dadurch dass das wir verschiedene Geräusche von einander noch während des Hörens trennen können, lassen sich so mehrere «Informationsspuren» zeitgleich versenden. Allerdings wurde schon in Aufgabe b) angesprochen, dass dies nur bis zu einem bestimmten Maße möglich ist und mit steigendem Konzentrationsaufwand verbunden. Es ließe sich so aber verschiedenen Instrumenten verschiedene Bedeutungen zuzuweisen, etwa Temperatur und Niederschlagin einem Wetterbericht. |
Ein weiterer möglicher Parameter wäre der Ort oder die Richtung aus der
das Signal kommt. Dies ist allerdings sehr von der Position des Empfängers abhängig, was höchstens
in sehr speziellen Fällen sinnvoll wäre. So kann man es zwar gut einsetzen um eben wiederrum geographische Gegebenheiten oder aber auch zyklische Daten, da dieser Parameter die Eigenschaft hat nach einem vollen Ausschlag von 360° wieder am Anfang zu sein, zu beschreiben, allerdings auf Kosten des Vorteiles einer hohen Reichweite oder geringen Beeinflussung durch Blockaden, da man sich zum Empfang an einer festgelegten Stelle (mit Toleranz) befinden muss. Es gibt aber Situationen in denen dies durchaus sinnvoll sein kann. So muss allerdings auch beachtet werden, dass die Ortsbestimmung am besten in Sichtrichtung funktioniert und ein Geräusch von außerhalb des Sichtfeldes zu einer Drehung des Kopfes reizen kann. |
Zum Abschluss sei noch die Lautstärke erwähnt. Die Hörschwelle liegt beim
Menschen ungefähr bei 2·10-5Pa (1dbSPL) während eine Schmerzgrenze von
ca. 125 dbSPL1 nicht überschritten werden sollte. Die Lautstärke stellt zwar einen guten Parameter zur Übertragung eines Signales an sich dar, beeinträchtigt allerdings wieder unter Umständen die anderen Parameter und Vor- bzw. Nachteile. So fällt es deutlich schwerer ein leises Signal zu entziffern. Es muss daher sehr auf den abzudeckenden Bereich geachtet werden, um gute Effekte zu erzielen. |
In enger Zusammenarbeit mit Matthias Busse2 entstand folgendes Grundgerüst für die Sonifikation einer Videothek. Ziel war es einem Kunden die Möglichkeit zu bieten in verhältnismäßig kurzer Zeit sich durch die Bestände der Videothek zu hören. Dazu sollen ihm einfache Kopfhörer sowie eine kleine Steuereinheit gegeben werden mit den nötigsten Auswahlknöpfen, wie etwa «weiter». Persönlich wurde das Augenmerk auf eine Offenheit des Systems gelegt, so dass es einfach zu erweitern sein soll und dem erfahrenen Benutzer immer mehr Möglichkeiten zur Individualisierung geben kann.
Während viele Funktionen einen gleichen Ursprung haben, so haben mein Kommilitone und ich schließlich doch verschiedene Schwerpunkte gesetzt, so dass unsere Arbeiten gut miteinander zu Vergleichen sind und dem Leser genügend Anregung zu eigenen Gedanken bieten können.
Jede akustische Kurzbeschreibung beginnt nach unserer Definition mit einem kurzen Signalton, welcher das Genre des Filmes darstellt, und endet schießlich auch wieder mit diesem. Actionfilme könnte so durch einige Pistolenschüsse, quietschenden Reifen oder Ähnlichem dargestellt werden. Es ist sogar denkbar erst die Schüsse und dann die Autos erschallen zu lassen um den Film schon in den ersten zwei bis drei Sekunden in eine grobe aber effektive Schublade einzuordnen. Wen ein Kunde zum Beispiel die aktuelle Bestsellerliste akustisch nach einer Komödie sucht, so kann er nach kurzem Anhören bereits einen großen Teil an für ihn uninteressanten Filmen ausschließen, bis er Gelächter hört.
Danach kommt die erste von drei großen Unterkategorien an das Ohr des Zuhörers. Neben Titel und Autor (sowie den bekannten Sätzen: «nach einer wahren Begebenheit...» oder «nach dem Bestseller von...») soll nun ein kurzer Überblick über die Handlung erfolgen. Dies stellt für mich bis jetzt ein an sich nicht vollständig gelöstes Problem dar, allerdings meiner Meinung nach gut substituiert:
Statt die Handlung wiederzugeben wird versucht die Stimmung des Filmes zu erfassen und in wenige Sekunden zu pressen. So könnte etwaige Hintergrundmusik und Hintergrundgeräusche bereits einen guten Einblick in das emotionale Geschehen geben. Eine Stauchung der Audiospur unter Berücksichtigung von besonderen Punkten, etwas einer besonders lauten, spannungsgeladenen Szene (zum Beispiel eine Verfolgungsjagd, aber das muss der Computer bei der Analyse gar nicht wissen) im Gegenspiel zu einer gewissen Glättung um zu starkes Springen zu verhindern, könnte einen vielsagenden Überblick geben. Die Glättung ist wichtig, dass der Film als ganzes doch einigermaßen geschlossen erscheint und das Tongefüge nicht zu einem akustischen Schlachtfeld wird. Ebenfalls könnten verschiedene Systeme zur Bestimmung von Emotionen aus der Musik oder aus Bildern3 hier einige Arbeit leisten.
Währenddessen soll man ungefähr hören können, in welcher Zeit der Film spielt und an welchen Orten. Wir definieren darum, dass wir die Nase des Kunden als Nordweiser für eine gedachte Weltkarte nehmen und lassen die kurze Zusammenfassung aus einer bestimmten Richtung kommen. Erreicht wird dies durch eine entsprechende Phasenverschiebung des Signales vom linken zum rechten Ohr. Über die Lautstärke kann man hier die Entfernung angeben, je weiter weg, desto leiser. Natürlich nur in gewissem Rahmen von Höhrgrenze bis Schmerzgrenze mit gut Toleranz in das innere des Intervalles. Die Zeit hingegen lässt sich durch einen akustischen Patina-Effekt übermitteln, nämlich dadurch, dass man älteren Filmen mehr Rauschen beimischt. Die Dauer des Filmes an sich schließlich wird durch die Länge der Vorschau angegeben durch ein festes Verhältnis von Originalfilm zu Überblick.
Unter Umständen kann dieses Verhältnis vom Kunden beeinflusst werden, etwa wenn er sich etwas genauer anhören will oder nicht viel Wert auf diese Art der Zusammenfassung legt. Es bedarf aber auf jeden Fall seiner Einwirkung Die genannten Werte erscheinen nicht zu unrecht dabei sehr grob. Ich gehe allerdings davon aus, dass eine ungefähre Angabe hier reicht. Oft werden auch im visuellen Bereich Verallgemeinerung wie «ein Film aus dem Orient» angestellt und im Prinzip reichen diese meist auch völlig aus. Der Überblick bis hierher sollte nicht mehr als 15 Sekunden bei Standardeinstellung in Anspruch nehmen, falls der Film keine Überlänge hat.
Es sollte noch erwähnt werden, dass definiert werden muss aus welcher Richtung das Signal bei Fantasy-Filmen kommt, deren Ort zumeist nicht auf einer irdische Karte verzeichnet ist. Ein einfaches Ein-Kanal-Signal ist hier vermutlich am Geeignetsten.
Schließlich kommt es zur Nennung der Darsteller, sehr wahrscheinlich per Namen. Es ist zwar denkbar bestimmte Codes einzuführen um Schauspieler in wenigen Taktschlägen zu identifizieren, ein solches Feature wäre aber vor allem dann für Stammkunden und dem Inhaber selber interessant, und sollte für Gelegenheitskunden deaktiviert sein. Ein solcher Code könnte zum Beispiel ein kurzes Wort von der eigenen Zunge des Schauspielers sein.
Nun wird sozusagen hinter die Kulissen des Filmes geschaut, zum Beispiel der Regisseur genannt (oder wiederrum durch einen Code dargestellt). Ebenfalls eine FSK-Freigabe (zum Beispiel die Stimme eines jungen Mannes im gerade so zugelassenen Alters - Die Altersklassen lassen sich hier gut durch den Stimmbruch trennen) würde hier passen. Um bereits verwendete Systeme noch einmal zu benutzen, was sicherlich einen Lerneffekt hat, wird wie oben das Alter des Filmes und die Herkunft dargestellt. Oft sind Herkunft und Ort der Handlung identisch, wenn nicht, so wird diese Differenz allerdings durch den stattfindenden Umschwung sehr gut dargestellt.
Dieser Teil (sowie auch der nächste) sind in maximal fünf Sekunden darzustellen, was eine Gesamtlänge eines Beitrages von weniger als eine halbe Minute ergibt. Im Übergang zur Beurteilung wird nun ein kurzes Geldklimpern eingespielt. Je mehr Groschen auf der linken Seite des Nutzers beim Fallen erklingen, umso mehr hat der Film gekostet, während auf der rechten Seite zum Vergleich die Einnahmen in gleicher Weise dargestellt werden um einen Vergleich zu ermöglichen.
Hier wäre nun der Platz um aufzuzeigen in welchen Sprachen der Film verfügbar ist und welche Untertitel zur Auswahl stehen. Da dies aber meist nicht gebraucht wird, ist es standardmäßig ausgeschaltet und der Videokatalog wird vorher bereits an die Sprachkenntnisse des Benutzers (zum Beispiel durch eine einfache Frage beim Start der Software) entsprechend eingeschränkt. Wird die Funktion vom Benutzer aktiviert, so hört er für jede vorhandene Sprache einen heimischen Sprecher den jeweiligen Landesnamen sagen. Gibt es dazu Untertitel, hört man das Kratzen einer Schreibfeder auf Papier. Passende Audiodateien gibt es dabei in großen Mengen im freesound-project4, zum Beispiel von amione: http://www.freesound.org/samplesViewSingle.php?id=9216 (writing.wav, 8,74MB; Stand: 24.1.2009). Gibt es zwar Untertitel, aber keine Audiospur in der Sprache, so hört man den Sprecher wesentlich leiser seinen Landesnamen verkünden.
Im letzten Teil hört man nun noch einen Applaus, welcher die Bewertung des Filmes angibt. Je lauter das Klatschen, desto besser fiel die Kritikerwertung aus und umso mehr Preise hat der Film gewonnen. Hier wäre auch denkbar, dass ein erfahrener Benutzer selbst eine Gewichtung von Preisen und Journalisten einstellen kann, da es kein technischer Aufwand ist die Lautstärke entsprechend anzupassen. Je mehr klatschende Hände man allerdings hört, umso besser ist die öffentliche Meinung über den Film, errechnet aus bisherigen Verleihungen, Kundenbewertungen und Kinobesuchen. Ein einsames, aber lautes Klatschen wäre somit ein von Kritikern gen Himmel gelobter Film, der kein Publikum findet.
Um die Vorstellung abzuschließen, kann nun noch ein kleines Signal die Preisklasse des Filmes anzeigen (je nach Videothek), zum Beispiel drei kurze Klopfzeichen für Preisklasse drei. Wie angekündigt schließt die Zusammenfassung dann mit dem Anfangssignal.
Visuell dargestellt würde es dieses Bild ergeben, bei dem auf der rechten Seite (3 Uhr) begonnen wird und gegen den Uhrzeigersinn alle Bereiche durchlaufen werden:
Ein weiterer wichtiger Punkt bei einer Umsetzung wäre der, wie an die ganzen Daten zu kommen ist, die für die Darstellung gebraucht werden. Bereits genannt wurde für bestimmte markante Geräusche das freesound-project. Damit sind die benötigten Werte aber bei weitem nicht abgedeckt.
Am einfachsten (für den Programmierer) ist die Eingabe per Benutzeroberfläche durch einen in der Videothek Angestellten. Auf Grund dieser Tätigkeit, der Verwaltung des Systems, wird er im weiteren Text «Bibliothekar» genannt. Er verwaltet die Datenbank in der die gesamten Datenmengen für die Archivierung lagern. Als Datenbank könnte dabei MySQL6 genommen werden, als kostenlose Alternative zu den teureren Systemen. Wenn er einen neuen Film eintragen muss, so kann es unter Umständen vorkommen dass er noch Daten per Hand eintragen muss, da die automatische Prozedur nicht alles gefunden hat. Auf jeden Fall wird ihm zur Bestätigung nach Abschluss der Datensammlung das Ergebnis präsentiert, bevor es in die Datenbank geschrieben wird, so dass er es noch verändern kann.
Dann legt er die CD/DVD in ein entsprechendes Laufwerk. Nun sollen einige Daten von der CD gelesen werden, wozu vermutlich ein passendes Programm geschrieben werden muss. Zur weiteren Theorie wird hier mit den Werten gearbeitet, die VLC7 finden kann:
Titel, Audiospuren (Sprachen), Anzahl Audiospuren (Mono, Stereo...), Untertitel, Dauer
Ebenfalls natürlich die Audiospur an sich, die wichtig ist für die Darstellung der Handlung.
Natürlich sollte man auch die riesige Informationsquelle des Internets nutzen, auch wenn die beiden Favouriten unter den Webseiten jeweils Geld für die nicht-private Nutzung ihrer Dienste verlangen. Dafür sind die Informationen sehr umfangreich:
So listet die Internet Movie Database8 (IMDb) sogar die einzelnen Drehorte auf und die Filmcrew bis hin zur Garderobe. Nützlich ist die Genre-Einordnung und die Benutzerbewertung, meist ist auch eine kurze Zusammenfassung vorhanden, die zwar kaum in die Sonifikation direkt übertragen werden wird, aber dem Bibliothekar als Vergleich vorgelegt werden kann.
Zudem gibt es den All-Movie-Guide9 der den Filmen jeweils Stimmungen zuordnet, was gut in unser Schema passt. Außerdem ist ein Vergleich von Wissen aus dem Internet stets sinnvoll. Um die Informationen dabei aus den Internetseiten in ein Programm zu bekommen, kann man den Open-Source-Browser links10 benutzen, der von der Kommandozeile gestartet werden kann und mit dem Argument "--dump" aufgerufen den Inhalt der Webseite bar aller html-tags in die Konsole schreibt. Unter Umständen bieten die Seiten allerdings auch einen anderen Zugang zu ihrer Datenbank.
Noch nicht vollkommen ausgereift aber wert im Auge behalten zu werden ist die offene Linked Movie Database11, die versucht über semantische Verlinkung Filme zu ordnen. Dabei steht sie in Zusammenhang mit anderen Projekten verwandter Zielsetzung.
Doch diese Daten sind schließlich nicht die ganze Schwierigkeit der Sonifikation. Es müssen auch Mittel zur akustischen Umsetzung gefunden werden. Wenn es darum geht einen Namen vorzulesen gibt es dabei natürlich prinzipiell zwei Möglichkeiten: Einen Sprecher (unter Umständen engagieren) oder eines der Text-Zu-Sprache-Umwandlungsprogramme, wie zum Beispiel KTTS12.
Komplizierter ist es jedoch selbst Geräusche zu erzeugen, wie das Klopfen für die Preiskategorie. Aber auch dafür stehen Programme zur kostenlosen und offenen Verwendung zur Verfügung. So lassen sich mit den Programmen sgen und tones13 eben solche einfache Schwingungen per Kommandozeile erzeugen. Während sgen ein einzelnes Signal abspielt, kann man tones eine Reihe von Frequenzen übergeben, die es dann durchläuft.
Wurden dann schließlich alle Daten gesammelt und zugehörige neue Signale erzeugt, kann das ganze in einem Audioeditor wie zum Beispiel Audacity14 zusammengeschnitten werden. In wie weit dieser Schritt automatisiert werden kann ohne extra in den Programmcode einzugreifen, ist unklar. Aber ich vermute sehr dass hier eine Anpassung nötig wäre.
Doch auch wenn die Tonspur dann fertig ist: Zukünftige Benutzereingaben und -bewertungen sollten regelmäßig in das System eingespeist werden um aktuelle Zahlen liefern zu können, oder eben hier Geräusche. Außerdem wäre eine öffentliche Haupt-Datenbank in einem solchen Projekt sinnvoll, die Daten sammelt und austauscht. Zu einer weiteren Optimierung wären durch sie erhobene Daten eine enorme Vereinfachung.
Und auch hier soll eine Grafik das Ganze noch einmal in einer Übersicht zusammenfassen: