2017: Ausrechnen statt Entscheiden. 30 Jahre IT-Innovation.

Abstract

Dies ist eine PrePrint-Version. Die tatsächliche Druckfassung kann abweichen.

Publication
In: CSR und Digitalisierung (2017), Berlin: SpringerGabler.
Date

Ausrechnen statt Entscheiden (draft version)

30 Jahre IT-Innovation

Einleitung

Im Leibniz-Jahr 2016 erinnern sich Informatiker gern an die Begeisterung des Universalgelehrten und – in ihren Augen – des ersten Informatikers »Einer hat Alles aus Nichts gemacht«. Der vor rund 300 Jahren verstorbene Gottfried Wilhelm Leibniz war so entzückt von seinem dyadischen System, das die ganze Welt mit 1 und 0 darstellen konnte, dass er sogar Medaillen prägen ließ, in deren Mitte einfache Rechnungen im binären Zahlsystem prangten. Um dieses herum sieht man eine bildliche Darstellung von Licht und Schatten, kurz: Das Bild der Schöpfung, imago creationis.

Schon die alten Pythagoräer beschworen ihr Mantra: Alles ist Zahl, wobei sie wohl eher an Geometrie dachten als an die uns umgebende Umwelt. Die Informatiker als neue Pythagoräer beschränken sich hingegen nicht auf abstrakte Objekte der Mathematik, in der Welt des Digitalen erscheint alles zählbar, alles berechenbar, alles modellierbar. Selbst mathematisch unlösbare Probleme, wie die Quadratur des Kreises, sind in der diskreten Welt der Informatik lösbar. Die Kreiszahl π, eigentlich eine Zahl mit unendlich vielen, nicht-periodischen Nachkommastellen, wird entweder gerundet im Computerspeicher abgelegt – oder es wird auf eine (endliche) Rechenvorschrift verwiesen, die mit jedem Durchgang eine immer genauere Näherung ausgibt. Dann gelingt natürlich die Quadratur eines jeden Kreises, unendlich viel Zeit oder entsprechende Fehlertoleranz vorausgesetzt.

Die Algorithmisierung der Lebenswelt prägt unsere Epoche so fundamental, dass wir in Anlehnung an McLuhan die Turing-Galaxis ausgerufen haben. Was bei Leibniz wohl eher böse Satire gegenüber seinen Zeitgenossen war, scheint nun einzutreten: Bei Meinungsverschiedenheiten rechnen wir einfach aus, wer Recht hat. Bei epistemologischen Unklarheiten halten wir uns nicht lange mit den Nachdenken über das Wesen des Betrachtungsgegenstands auf, nein, in Anspielung auf den letzten Satz des Tractatus’ können wir den Imperativ unserer Epoche formulieren: Wovon wir keine Vorstellung haben, darüber lassen wir Algorithmen laufen.

Führen Sie sich (im inzwischen gewohnten Schnellschritt) die »Algorithmische Revolution« der letzen drei Jahrzehnte vor Augen: Vor 30 Jahren eroberte der Personal Computer die Schreibtische, vor 20 Jahren vernetzten sie sich, vor 10 Jahren wanderten sie in die Hostentasche um schließlich ubiquitär zu sein: Die Zukunft ist jetzt.

non calculemus sed informare audeamus

Die Autonomie des Menschen gehört zu den Grundbedingungen seines Daseins. Er besitzt die Möglichkeit, sich selbst Gesetze zu geben und kann vor allem entscheiden, ob er sich daran halten möchte. Moralisches Handeln ist nur möglich, wenn eine freie Entscheidung getroffen werden kann. Im Selbstversuch können wir zwar beobachten, dass wir viele Tätigkeiten wie unter Zwang vollziehen, ohne weiter darüber nachzudenken – der vernunftbegabte Mensch besitzt jedoch die Möglichkeit, sein Verhalten zu hinterfragen und an veränderte Umweltbedingungen anzupassen. Ohne die Fähigkeit, sich selbst Gesetze geben zu können, können wir nicht mehr von dem »echten menschlichen Leben« sprechen, auf das Hans Jonas in seinem berühmten »Prinzip Verantwortung« zu Recht einen hohen Wert legt. In der von Technikern geschaffenen »ungeheuren« Welt der Informationstechnik muss sich der Mensch dem Gesetz der Maschine beugen: »code is law« – der »user« wird zum »usee«, der Nutzer zum Genutzten.

Digitalisierung ist das Schlagwort des letzten Jahrzehnts. Obwohl Computer mehr als ein halbes Jahrhundert die Lebenswelt der Menschen unterstützen, so ist der Rechner in Form des Smartphones oder Tablets doch erst jetzt so wirklich im Alltag angekommen. Alles wird berechnet: Unser Nachhauseweg, Kalorienverbrauch, die Schrittzahl, der Pulsschlag, mögliche Dates in der Umgebung. Die Digitalisierung des Alltags und Forschungsprojekte wie der Jeopardy-gewinnende Watson der IBM oder das Google-Auto könnten uns jedenfalls einem das Gefühl geben, dass alles berechenbar ist. Und ja: viele Probleme lassen sich inzwischen mit Hilfe von Computern lösen. Nicht zuletzt auch, wie das Moore’sche Gesetz vorhersagt, weil sich die Komplexität integrierter Schaltkreise regelmäßig verdoppelt und unsere Computer schneller macht. Dies erlaubt uns, Dinge am Computer zu berechnen, die früher in der Weise nicht umsetzbar waren.

In der modernen Welt bestimmen informations- und kommunikationstechnische Artefakte und Systeme, was wir von unserer Umwelt überhaupt wahrnehmen können. Unsere unmittelbaren Sinneseindrücke werden von einer informationellen Folie überlagert. Wir beurteilen Menschen und Produkte auch, indem wir die Urteile anderer Menschen berücksichtigen, das war schon immer so. Doch inzwischen schaut die stets beschäftigte Person nicht in die Urteilsbegründung, sondern gibt sich mit der reinen Anzahl der »Sterne« oder Gefallensbekundungen zufrieden. Entscheiden und Urteilen sind keine transitiv vollziehbaren Handlungen, sie müssen von jedem Handelnden (lateinisch/englisch: »Agenten«) getroffen bzw. gefällt werden. Natürlich kann ich die Entscheidung einem anderen Agenten überlassen, dann trage ich sie mit – oder eben nicht.

Die informationelle Überlagerung durch informations- und kommunikationstechnische Systeme erfolgt so subtil, dass ihre Nutzer die Entmündigung unter Umständen gar nicht oder viel zu spät bemerken. Die Komponente Mensch ist im Gesamtsystem fast schon ein Störfaktor. Das kann man besonders zugespitzt im Bereich des Einsatzes von unbemannten Luftfahrzeugen (umgangssprachlich Drohnen) sehen. In diesem Extremfall wird der Nutzer nur noch eingebunden, um jemanden haftbar machen zu können. Wo der Laie von Drohnenpilot spricht, weiß der Experte, dass mehrere Personen an den Drohnentötungen beteiligt sind. Der image analyst sichtet den live feed der Drohnenkamera, verknüpft Sichtbares mit Metadaten und versieht so der Pixelanhäufung nicht nur das Etikett »Mensch X«, sondern auch »Ziel X«. Der im Recaro-Sportsessel in Ramstein sitzende Drohnenpilot bekommt dann die so aufbereiteten, erst im und durch das System produzierten, Bilder mit den ensprechenden Vermerken – und »entscheidet« sich dann für den Abschuss der Hellfire-Raketen.

Diese »Entscheidung« ist jedoch keine solche im philosophischen Sinn, denn die eigentliche wurde bereits von den image analysts und der dazugehörigen software anhand von Mustererkennung, Graphenauswertung oder gar Monte-Carlo-Heuristiken getroffen. Zudem sind die Piloten in der Regel Soldaten, die geradezu angehalten sind, nicht ständig über ihr Tun zu reflektieren. Sie sind aus einem juristisch-politischen Grund da: Haftbarkeit.

Smarte Daten

Digitalisiert und digital ausgewertet wird inzwischen quasi alles. Die Umwandlung von Big Data in Smart Data erfolgt jedoch nicht ohne Probleme. Wir sollten vor einer allzu tiefen Technikgläubigkeit gewarnt sein, denn auch das maschinelle Lernen kann gewisse Grenzen nicht überwinden bzw. es bleiben noch immer genug Herausforderungen.

Eine Herausforderung besteht darin, dass Computer nicht in der Lage sind, ein Problem bzw. deren Lösung in allen seinen Facetten der Realität entsprechend zu berechnen. Nicht nur, dass uns die theoretische Informatik lehrt, dass vereinfacht gesagt, nicht alles berechenbar ist. Es gibt auch bei den berechenbaren Problemen Grenzen und zwar mehr als nur die Rechengeschwindigkeit. Denn auch wenn es ausreichend Rechenleistung gäbe, gibt es immer noch kein universell gutes Verfahren zum Abstrahieren von Datensätzen, wenn die Menge aller Datensätze betrachtet wird. Um nämlich aus einer Masse von Daten (die aus heterogenen Quellen stammen), Antworten über die Realität sinnvoll beleuchten zu können, bedarf es ganz konkreter Fragestellungen. Und einen zentralen Punkt sollte man dabei beachten: Die Antworten bilden nicht einmal die (ganze) Realität ab, sondern stellen ein Modell der Realität dar.

Das heißt also auf unser Big Data Problem übertragen, dass es keinen Algorithmus gibt, der aus allen möglichen Daten Sinn errechnen kann – im Gegenteil: Mit Raten, was die Daten eigentlich zu bedeuten haben, hat man die gleichen Erfolgschancen. Für Teilbereiche funktioniert das Generalisieren von Beispielen jedoch ganz gut. Denken wir an die Suche im Netz, an Spamfilter, Empfehlungssysteme, Scoring, Börsenhandel oder selbstfahrende Autos. Oder auch Echtzeitanwendungen wie eben solche Netzfilter zur Abwehr von Cyberattacken, aber auch Internettelefonie oder Filmstreamplattformen sind nur möglich, weil Computer schneller und cleverer geworden sind. Dennoch: »The map is not the territory«, wie Alfred Korzybski es formulierte. Das, was der Computer berechnet, berechnet er aufgrund einer Modellierung, nicht aufgrund der Realität.

Darüber hinaus stehen wir vor weiteren Problemen, die zum einen mit den Daten aber auch mit den Verfahren zusammenhängen. So handelt es sich bei Daten, die Big Data speisen, wie oben bereits dargestellt, zum großen Teil um beobachtete, nicht experimentelle Daten. 

Und so stellt sich bei Smart Data stellt sich unwillkürlich die Frage, was wir eigentlich »wissen« wollen. Was wir als nächstes kaufen/lesen/schauen sollen? Ob wir kreditwürdig sind? Den nächsten Tatort? Und wie sollten Fehler in den Berechnungen für die Beurteilung der Realität einbezogen werden?

Den Unterschied, den wir vorher zwischen experimentellen und beobachteten Daten aufgemacht haben, spielt an dieser Stelle eine Rolle. Auch wenn unter Umständen gleiche kausale Beziehungen in beobachteten und experimentellen Daten stecken könnten: Der wesentliche Unterschied ist, dass derjenige, der die Daten selbst in Experimenten erzeugt, auch die Kontrolle über die Zusammenhänge hat, während derjenige, der Daten (wie Daten aus dem Netz) beobachtet, keine Kontrolle über die Zusammenhänge hat und daher auch keine Kausalzusammenhänge ableiten kann.

Die gefilterte Welt

Ein – wenn auch erst auf den zweiten Blick – aus dem Alltag stammendes Beispiel, welches das Moore’sche Gesetz veranschaulicht sind Firewalls bzw. Paketfilter. Erste Paketfilter sind Mitte der 1970er Jahre aufgekommen, die jedoch nur in der Lage waren, Pakete an der Oberfläche zu scannen. Mit jeder neuen Generation solcher Filter wurde der Schutz der Netze stetig weiterentwickelt und aufgrund steigender Rechen- und Speicherkapazität immer effizienter. Dabei wurde ein immer tieferer Blick in die Pakete möglich. Inzwischen ist die Entwicklung der Paketfilter bei den mit Deep Packet Inspection (DPI) bezeichneten Systemen angekommen. Diese Filter können die gesamte Internetkommunikation einschließlich aller vom Nutzer erzeugten Daten wie z. B. Chatnachrichten, E-Mails, besuchte Webseiten, heruntergeladene Filme oder verwendete Passwörter über gewisse Zeiträume hinweg umfassen. Maschinen, in denen diese Filter implementiert sind, sind grundsätzlich in jedem (IP-basierten) Netz einsetzbar und können Durchsatzraten von mehreren Hundert Gbit/s erzielen. Zum Vergleich: Einer der größten Internetknoten der Welt – der Deutsche Commercial Internet Exchange Frankfurt (DE-CIX) – hat einen Durchsatz von etwa 3 Tbit/s. Die Analysen sind mit Aufwand theoretisch in Echtzeit, d. h. zum Zeitpunkt der Kommunikation möglich. Echtzeitanwendungen wie eben solche Netzwerkmonitore aber auch Internettelefonie oder Filmstreamplattformen sind nur möglich, weil Computer schneller und cleverer geworden sind. Das Wort »clever« ist in Zusammenhang mit Computern missverständlich. Jedoch kommt man um diese Begriffswolke »clever«, »intelligent«, »smart« in Zeiten heutiger Computeranwendungen nicht herum und bedarf daher näherer Erläuterung.  Künstliche Intelligenz ist nämlich ein weiterer Baustein, der uns Echtzeitsysteme mit großen Datenmengen erst ermöglicht. Dabei spielt vor allem das maschinelle Lernen eine zentrale Rolle. Es handelt sich um Verfahren, die in der Lage sind, Lösungen zu Problemen zu berechnen, indem sie aus Beispielen generalisieren und damit induktiv arbeiten. Die Systeme lernen automatisch aus den ihnen zur Verfügung stehenden Daten. Solche Verfahren werden seit längerem in verschiedenen Bereichen eingesetzt und sind auch aus dem Alltag bekannt: Virenscanner, Spamfilter, Empfehlungssyteme in Online-Shops oder Filmplattformen, Werbung, Börsenhandel und nicht zuletzt bei der Online-Suche.  Beim sogenannten überwachten Lernen sind die Kategorien der Daten bekannt und der Lernprozess läuft in zwei Phasen ab: Die erste Phase beschreibt den eigentlichen Lernprozess, bei dem anhand der Trainingsdaten und der Kategorien ein Modell bzw. Hypothese erstellt wird, die es dem Algorithmus ermöglicht unbekannte Daten zu klassifizieren. Bei unüberwachtem Lernen sind die Kategorien zunächst unbekannt und der Algorithmus entdeckt Muster selbständig, aus denen er relevante Parameter für eine Hypothese bzw. Modell extrahiert und damit Vorhersagen über weitere Daten ermöglichen soll. Ziel des maschinellen Lernens ist es also aus den Datensätzen Gesetzmäßigkeiten zu entdecken und daraus allgemeine für andere (noch unbekannte Daten) Regeln abzuleiten. Um bei dem obigen Beispiel zu bleiben: Paketfilter analysieren Internetkommunikation auf alle möglichen Parameter hin: Sei es Größe der Pakete, den zeitlichen Abstand, vorkommende Zeichenketten und können anhand dieser Parameter Pakete in beispielsweise E-Maildaten, Chats oder aber auch Malware kategorisieren. Die Vorteile von Algorithmen, die auf maschinellem Lernen beruhen, liegen in der Automatisierung der Identifizierung, Regelentwicklung und Auswahl der am besten geeigneten Eigenschaften. Das maschinelle Lernen lässt innerhalb aund außerhalb der Informatik auf neue Anwendungen hoffen, die mit »klassischen« Algorithmen undenkbar wären.  So ist das autonome Fahren eines der Themen, die inzwischen nicht mehr in der Informatik diskutiert werden, sondern inzwischen innerhalb der Gesellschaft eine breite Diskussion angestoßen hat. Und auch in der juristischen Welt kommen Diskussion auf, wie autonome Maschinen rechtlich zu handhaben wären. Ein zentraler Aspekt dabei ist: Wer ist verantwortlich? 

Die Frage der Verantwortung (juristisch im Sinne von Haftung mit möglichen Rechtsfolgen) bestimmt die Debatten bei geplanten Einsätzen einer neuen Technologie und nicht etwa moralische Fragestellungen.

Sowohl den Versicherungsfirmen als auch den Besitzern von nicht selbstfahrenden (und trotzdem »Automobil« genannten) Kraftfahrzeugen ist vor allem wichtig, wer Schuld an einem Unfall trägt. Mögliche moralische Fragen an die Mobilitätssucht des modernen Menschen werden gar nicht gestellt, etwa, ob es moralisch gerechtfertigt ist, einen erheblichen Bereich der Verkehrswege für Fußgänger komplett zu sperren oder was die Beschaffung der für die Freude am Fahren notwendige Energie für die Umwelt bedeutet.

Die letzte Sichtweise, nämlich die verschuldensunabhängige geht von einem fertigen, ausgelieferten Produkt aus. Und das ist bei Algorithmen des maschinellen Lernens eine Sichtweise, die nicht zutreffend ist. Ja, es gibt Software, die von jemandem programmiert wurde. Im Gegensatz zur klassischen Software werden aber nicht alle möglichen Fälle von vornherein definiert. Im Gegenteil: Die Maschine soll mit Hilfe der Software auf neue und unbekannte Situationen reagieren können, indem Sie sich aus bereits »erlebten« Regeln ableitet, die für die neuen Situationen gelten.

Normalerweise wird in sicherheitskritischer Software, wie beispielsweise Flugzeugen oder Autos mit Softwareverifikation und ausreichend vielen Testzyklen dafür gesorgt, dass ein in einem bestimmten Bereich das Ein- und Ausgabeverhalten immer definiert ist. Dies ist dem Umstand geschuldet, dass aus Sicht der theoretischen Informatik eben nicht alles berechenbar ist. Softwareverifikation für einen abgesteckten Bereich der Realität zu betreiben ist für die Informatik eine große Herausforderung. Für maschinelles Lernen, bei dem das Ein- und Ausgabeverhalten nicht von vornherein definiert ist, sondern sich aus zukünftigen Daten ergibt, stecken die Ansätze von Softwaretests und -verifikation in den Anfängen.

Das Arbeiten mit dem Digitalen ist – vom Softwareentwurf bis zum monatlichen Update – ein ständiger Entwicklungsprozess. Dies sollte in Zukunft sowohl bei der wirtschaftlichen aber auch juristischen Betrachtung sowie der Frage nach Verantwortung nicht nur berücksichtigt, sondern als neues Paradigma herangezogen werden. Wir wissen heutzutage nicht mehr, was wir schaffen werden, nur wie wir es schaffen werden.

Unser digitales Kulturerbe

Ein weiteres Beispiel, das die Fehlbarkeit digitaler Prozesse sehr gut verdeutlicht und die Notwendigkeit des prozessorientierten Denkens hervorhebt ist die Langzeitarchivierung bzw. -bewahrung digitaler Daten.

Ob Konsumgüter der Kreativwirtschaft, Artefakte des digitalen Kulturerbes, Programme und Datenbanken, Forschungs- oder Geschäftsdaten – die Digitalisierung hat unsere Gesellschaft tief durchdrungen. Digitalisiert sind inzwischen die alltägliche Kommunikation (Telefon, E-Mail, Chat), die Rezeption von Informationen (Portale im Netz, Nachrichten, Twitter), die Schaffung kultureller Güter (persönliche Fotografien, Musik, Video, komplexe Software und interaktive Medien, Computerspiele) sowie Forschung und Lehre. Ohne dass wir uns dessen bewusst sind, machen wir unser kulturelles Vermächtnis von der Haltbarkeit von Datenträgern, Softwareentwicklern und Dateiformaten abhängig.

Die Sicherstellung der langfristigen Bewahrung und des Zugangs zu den digitalen Artefakten unserer Gesellschaft ist dadurch zu einer dringenden gesellschaftlichen Aufgabe geworden. So veröffentlichte beispielsweise die UNESCO bereits 2003 Richtlinien für die Bewahrung des digitalen Kulturerbes und stellte damit immaterielle Kulturgüter auf eine Ebene mit dem Weltkultur- und Weltnaturerbe (vgl. UNESCO 2003).

Im Gegensatz zu analogen Daten- bzw. Informationsträgern, die eine Haltbarkeit von mehreren 100 bis 1000 Jahren (wie Mikrofilm, Papier, Steintafeln) erreichen können, haben digitale Datenträger eine Haltbarkeit von wenigen Jahren bis Jahrzehnten. Zudem sind digitale Daten nur mit Hilfe der richtigen Software interpretierbar und damit nur mittelbar lesbar bzw. darstellbar. Es existiert eine – ständig wachsende – Vielzahl an Dateiformaten.

Proprietäre Dateiformate und Software begünstigen eine digitale Kultur, in der nachhaltige Softwareentwicklung nahezu nicht durchzusetzen ist. Spezielle Hardware (Mobilplattformen, eingebettete Systeme, spezielle Chips) wirkt einer nachhaltigen Kulturgüterproduktion ebenfalls entgegen. Sowohl das Digital Rights Management (DRM) als auch die Benutzung von Cloud-Services entmündigen die Nutzer und entziehen ihnen die Gewalt über ihre eigene Daten und erschweren so die Entwicklung nachhaltiger Bewahrungskonzepte.

Es droht der Verlust einer Vielzahl digitaler Artefakte und Kulturgüter nicht nur auf lange Sicht, sondern schon in nächster Zeit. Selbst große Institutionen wie die NASA oder Firmen wie Amazon haben in diesem Zusammenhang bereits Daten unwiederbringlich verloren. Die angeschnittenen technischen, kulturellen und rechtlichen Dimensionen verdeutlichen den interdisziplinären und internationalen Charakter des Problems, der schnelles Handeln und einen Konsens erschwert. Politiker, Juristen, Bibliothekare, Archivare, Informatiker und Vertreter der Zivilgesellschaft müssen gemeinsam an Fragestellungen der Aufnahme, Katalogisierung, Bewahrung und dem Schutz digitaler Objekte, des Rechtetransfers und der technischen Umsetzung von Lösungsstrategien arbeiten.

So hat die Gesellschaft für Informatik e. V. die Bewahrung unseres digitalen Kulturerbes 2014 zu einer der großen Herausforderungen (Grand Challenge) der Informatik erklärt, die es in den nächsten Dekaden zu lösen gilt. Die Langzeitbewahrung digitaler Objekte birgt große technische Herausforderungen und ist darüber hinaus ein interdisziplinäres und internationales Problem, was ein schnelles Handeln und Konsens erschwert. Es muss ein breites Problembewusstsein in der Gesellschaft, beim Gesetzgeber und den Informatiker und Informatikerinnen selbst geschaffen werden. Es müssen Workflows und Best Practices erarbeitet und rechtliche Rahmenbedingungen für den Umgang mit Kopierschützen und DRM sowie für Exitstrategien aus der Cloud oder die Nachnutzung alter Software geschaffen werden. Dabei liegt es an der Informatik, Technik zu entwickeln, die Workflows der Langzeitarchivierung unterstützt und dabei auf große Datenmengen skalierbar ist.

Diese technischen Fragen bzgl. Bewahrungsstrategien digitaler Daten sind zudem in keiner Weise geklärt, es gibt bisher keine Erfahrungen über lange Zeiträume. Bereits verlässliche Aussagen zur Erhaltung multimedialer Artefakte über die nächsten 50 Jahre stellen ein Problem dar. Dabei ist nicht nur die Frage der Erhaltung und Zugänglichmachung ein Problem, sondern auch, wie man den Informationsverlust bei bestehenden Lösungsansätzen minimieren kann. Zudem sind technische Systeme prinzipiell unzuverlässig.

Auch ist die gesetzliche Lage nicht an die technische Realität angepasst. Teilweise erschwert das Recht die Langzeitarchivierung (Urheberrecht mit langen Schutzfristen), teilweise sind Institutionen auch nicht verpflichtet zu archivieren. Neuere Entwicklungen wie die Regelungen zu verwaisten Werke, reflektieren das Problem in einer unbefriedigenden Weise.

Langzeitarchivierung umfasst eine Fülle unterschiedlicher Prozesse. Es ist kein einmaliger Vorgang, sondern vielmehr eine dauerhafte Aufgabe. Daher muss auch hier eine prozessorientierte Denkweise in die IT Einzug halten. Denn auch wenn skalierbare Lösungen in Zukunft in Sichtweite sein werden, müssen diese langfristig tiefgreifende soziologische, politische, kulturelle/gesellschaftliche und technische Veränderungen überstehen und als Lösungen akzeptiert, konsequent angewandt und weiterentwickelt werden.

Bewahrungsstrategien müssen immer wieder neu für den konkreten Fall entwickelt und angepasst werden. Innerhalb der nächsten Dekade müssen zumindest Software- und Archivprozesse im Hinblick auf eine Langzeitarchivierung modelliert und standardisiert bzw. ausgerichtet werden.

Zum gemeinsamen Verständnis der beteiligten Akteure ist dabei eine einheitliche disziplinübergreifende Terminologie zur Beschreibung und Einordnung von Archiv- und Bewahrungsprozessen aus technischer, organisatorischer und politischer Sicht essentiell. Als weltweites Referenzmodell für Bibliotheken und Archive hat sich hierbei das Open Archival Information System (OAIS) etabliert. Ursprünglich 2002 als Gemeinschaftsprojekt der Europäischen und US-amerikanischen Raumfahrtbehörden initiiert bietet OAIS ein organisatorisches Modell, welches Geschäftsgänge, organisatorische Strukturen und Anforderungen eines digitalen Archivs mittels einer gemeinsamen Terminologie beschreibt sowie Akteure, Rollen und Entitäten benennt.

Eine gemeinsame Sprache und Prozessmodellierung ermöglichen Annäherungen zwischen den einzelnen beteiligten Disziplinen wie der Informatik, den Bibliotheks- und Informationswissenschaften, Geschichtswissenschaften, der Rechtswissenschaft und Gedächtnisorganisationen wie Museen, Archiven und anderen  kulturbewahrenden Institutionen.

Aus informatischer Sicht muss, um die Erhaltung der Datenbestände zu bewerkstelligen, ständig umkopiert, umformatiert oder emuliert werden. Dies kann nur nachhaltig erfolgen, wenn Open-Source-Software und offene Standards verwendet werden. Wichtig bei der Entwicklung sind Dokumentationen und Unit-Tests, d. h. eine transparente und nachvollziehbare Programmierung mit Rücksicht auf langfristige Nutzung und Erhaltung sowie die Verwendung von standardisierten Entwicklungsmodellen. Entwickelt werden müssen außerdem Testverfahren, die helfen, die Zuverlässigkeit von Langzeitarchivierungsmethoden abzuschätzen.

Die weitaus größere Herausforderung bildet dabei der digitale Datenstrom selbst. Digitale Daten müssen interpretiert werden, damit sie für Menschen in einer sinnlich wahrnehmbaren Form rezipiert werden können. Der Bitstrom aus logischen Nullen und Einsen ist nur mit Hilfe der richtigen Software interpretierbar und damit nur mittelbar lesbar bzw. darstellbar. Es müssen Wege gefunden werden, sämtliche Softwarekomponenten (Objekt, Abspielprogramm, Zusatzprogramme, Treiber und Betriebssystem) über Generationen von Rechner- und Softwaresystemen hinweg dauerhaft benutzbar zu halten.

Aber auch bei scheinbar weniger komplexen Objekten bzw. Nutzungsszenarien oder bei Digitalisaten ursprünglich analoger Medien müssen Strategien gefunden werden, den Charakter des Objekts zu erhalten und dauerhafte barrierearme Nutzungsumgebungen und -schnittstellen zur Verfügung zu stellen. Eine der großen Herausforderungen besteht darin, dabei möglichst allen Mitgliedern unserer Gesellschaft die Nutzung und den Zugang zu den digitalen und digitalisierten Artefakten einfach zu machen. Hier spielen die Gestaltung der Benutzungsoberfläche sowie die Softwareergonomie allgemein eine zentrale Rolle.

Aus informations- und bibliothekswissenschaftlicher Sicht müssen Definitionen und Best Practices erarbeitet sowie eine Vereinheitlichung und Umsetzung geeigneter Metadaten durchgesetzt werden. Für die Digitalisierung analoger Medien werden automatisierbare Prozesse die kosteneffizient arbeiten benötigt, die eine Anreicherung mit Metadaten (z. B. aus Normdatenbanken) erlauben. Gleichzeitig müssen Archiv- und Recherchesysteme entwickelt werden, die mit großen, unstrukturierten Korpora an digitalisierten und born-digital Archivmaterialien umgehen können.

Es bleibt zu hoffen, dass es uns gelingt diese Herausforderungen zu meistern und ein »Digital Dark Age«, vor dem jüngst ebenfalls Internetpionier Vint Cerf warnte, zu vermeiden. Doch wer für die immensen Kosten für Entwicklung, Umsetzung und Bewahrung tragen soll, bleibt unklar. Soll man das Feld amerikanischen Konzernen wie Google (Stichwort Google Books) überlassen oder die Aufgabe in staatliche Hände legen? Wer ist verantwortlich, wenn ein automatisierter Bewahrungsprozess fehlschlägt und digitale Artefakte unwiederbringlich zerstört? Soll man Hersteller von Software gesetzlich verpflichten, Bewahrungsstrategien wie Emulation zu unterstützen oder gar eine DRM- und Kopierschutz-freie Version an die Nationalbibliothek zu liefern? Diese Fragen sind zentral und sie zeigen das feinmaschige Geflecht aus Informatik, Technik, Wissenschaft, Politik und Wirtschaft. Informatiker und Informatikerinnen kommen nicht umhin, sich bereits bei der Entwicklung von »Gebrauchssoftware« mit gesellschaftlichen Fragestellungen konfrontiert zu sehen.

Gesellschaft in der Informatik – Informatik in der Gesellschaft

Doch gesetzt, der technisch handelnde Mensch möchte sich auch moralisch mit den Folgen seiner Kreationen auseinandersetzen: Die Entwicklerinnen und Entwickler von informationstechnischen Systemen werden in ihrer Ausbildung kein Pflichtfach »Ethik« im Curriculum finden, auch gibt das Reflektieren keine credit points im Studium oder eine Gehaltserhöhung von der Vorgesetzten-Etage.

Einen möglichen Ansatzpunkt beschreibt Prof. Sarah Spiekermann in ihrem jüngsten Buch zur »Ethical IT Innovation« (CRC Press 2015), sie greift klassische Entwicklungsmodelle (wie das Wasserfallmodell) auf und erweitert es um ethische Komponenten. Dabei sei es essentiell, Begriffe und zu Grunde liegende Werte zu identifizieren. Große Themenkomplexe besitzen unscharfe Ränder, eine Forderung nach »Privacy« beispielsweise lässt sich nicht umsetzen, wenn man nicht herunterbricht, was denn damit eigentlich gemeint sei.

Doch nicht nur im Falle der Verletzung von Werten, auch wenn Werte (vorgeblich) geschaffen werden, hilft das um die ethische Betrachtungsweise erweiterte Vorgehensmodell des klassischen »system development life cycles«, seien es nun Modelle wie Agile Programmierung oder Rapid Prototyping – selbst das nie ganz aus der Welt zu schaffende Wasserfallmodell kann so entsprechend angepasst werden. 

An einem Beispiel kann man diesen Ansatz verdeutlichen: Bei der Debatte rund um den Einsatz von Terahertz-Scannern an Flughäfen kann man schon an der Wortwahl sehen, welche ethischen Probleme angesprochen werden. Nennt man sie »Nacktscanner«, bezieht man sich auf die Tatsache, dass die Terahertzstrahlung Kleidung passiert und von der Haut reflektiert wird. Als die ersten Berichte ensprechende Bilder lieferten, waren viele empört: Der Blick der Maschine zieht mich aus! In der Folge wurden Systeme entwickelt, die dem Operator nur stilisierte Figuren zeigten, doch das Unbehagen Vieler nahm nicht ab. Der zu schützende Wert »Privacy« besteht eben nicht nur aus »intimacy« oder die Vermeidung von »nudity« – bei der Privatheit geht es neben der Intimität, neben örtlicher und informationeller Privatheit, auch und gerade um Autonomie. Das Gefühl des Ausgeliefertseins in so einem Gerät bleibt auch bei den Piktogramm-Darstellungen des menschlichen Körpers. Die Arme müssen über dem Kopf, der Körper insgesamt ruhig gehalten werden, die ikonische Haltung bei der medial vermittelten Darstellung einer Verhaftung durch die Polizei.

Doch Modellierung hin oder her – letztendlich geht es schlielich doch um die Realität und die Frage, welche Probleme die Informatik lösen kann und welche Rolle sie einnimmt.

Der im März 2016 verstorbene Informatiker Dirk Siefkes begriff die Informatik als eine von Menschen und für Menschen entwickelten Wissenschaft, die eine Vermittlung von menschlichen Tätigkeiten mit digitalen Maschinen, Techniken und Theorien im Blick hatte. Zu den menschlichen Grundtätigkeiten in einer Gesellschaft zählen das Herstellen, das Arbeiten und das (politische) Handeln; sie bilden den Teil der menschlichen Bedingtheit, den Hannah Arendt mit »vita activa« bezeichnete. Die Informatik widmet sich jedem dieser Bereiche mit unterschiedlichem Gewicht, repräsentiert beispielsweise in der Struktur des Fachbereichs »Informatik und Gesellschaft« der Gesellschaft für Informatik. Ethische und moralische Fragen von Informatik und ihrer Wechselwirkung mit gesellschaftlichen Prozessen bzw. Informatik als Teil der Gesellschaft müssen bereits bei in der Schule als eigenes – spätestens jedoch als fester Bestandteil der Informatikausbildung – behandelt und interdisziplinär diskutiert und ausgehandelt werden.

Literatur

  • Alpaydın, Ethem: Maschinelles Lernen, München: Oldenbourg Verlag, 2008.
  • Arendt, Hannah: Vita activa oder Vom tätigen Leben, München: Piper, 2006.
  • Callado, Arthur et al.: A Survey on Internet Traffic Identification, in: IEEE Communications Surveys & Tutorials, Band. 11, Nr. 3, 2009, S. 37-52.
  • Coy, Wolfgang: Für eine Theorie der Informatik, in: Sichtweisen der Informatik, hrsg.v. Wolfgang Coy u.a., Braunschweig/Wiesbaden: Vieweg, 1992, S. 17–32.
  • Gosh, Pallab: Google’s Vint Cerf warns of ‘digital Dark Age’. BBC, 13.2.2015. Verfügbar online unter: [http://www.bbc.com/news/science-environment-31450389].
  • Jonas, Hans: Das Prinzip Verantwortung, Frankfurt am Main: Suhrkamp Taschenbuch Verlag, 1984.
  • Nguyen, Thuy T. T./Armitage, Grenville: A survey of techniques for internet traffic classification using machine learning, in: IEEE Trans. Commun. Surv. Tutor., Band 10, Heft 4, 2008, S. 56 – 76.
  • Leibniz, Gottfried Wilhelm: Entwurf gewisser Staatstafeln (1685), in: Politische Schriften I, hrsg. v. Hans Heinz Holz, Frankfurt am Main: Europäische Verlagsanstalt, 1966, S. 80–89.
  • Lenk, Hans und Günter Ropohl (Hrsg.): Technik und Ethik, 2., rev. u. erw. Aufl., Stuttgart: Reclam, 1993.
  • Lessig, Lawrence: Code, Basic Books, 2006.
  • McLuhan, Marshall: Die magischen Kanäle (1964), Basel: Verlag der Kunst Dresden, 1995.
  • Steinbuch, Karl: Falsch programmiert: Über das Versagen unserer Gesellschaft in der Gegenwart und vor der Zukunft und was eigentlich geschehen müßte, 8. Auflage, München: Deutsche Verlags-Anstalt, 1970.
  • Trystero (Hrsg.): Per Anhalter durch die Turing-Galaxis, Münster: Monsenstein und Vannerdat, 2012.
  • Turing, Alan: On Computable Numbers, with an Application to the Entscheidungsproblem, in: Bd. 42, 1937 (Proceedings of the London Mathematical Society), S. 230–265.
  • UNESCO (Hrsg.): Guidelines for the Preservation of Digital Heritage. Dokument CI-2003/WS/3, 2003. Verfügbar online unter: [http://unesdoc.unesco.org/images/0013/001300/130071e.pdf].
  • Wiener, Norbert: Cybernetics. Or control and communication in the animal and the machine, Bestand der SEL Bibliothek, Stuttgart. Signatur B6067,
  • New York: John Wiley & Sons, 1948.
  • Zemanek, Heinz: Das geistige Umfeld der Informationstechnik, Berlin: Springer, 1991.