Von der Kraft der Metadaten

(hpd) Der frühere CIA-Direktor David Petraeus bekundete 2012 seine Absicht, die Menschen dabei zu beobachten, wie sie das Licht in ihrem Wohnzimmer mit Hilfe ihres “intelligenten” Telefons einschalten. Bedauerlicherweise muss Petraeus dieses Vergnügen seinem Nachfolger überlassen: Der CIA-Chef stolperte über eine außereheliche Beziehung mit seiner Biographin Paula Broadwell.

 

Wie ein Geheimdienst-Chef Opfer seiner Überwachungsdoktrin wurde

“Um die Nadel zu finden, braucht man den Heuhaufen”, so die angebliche Überzeugung von NSA- (National Security Agency) Direktor Keith Alexander. Ira Hunt, Chef-Techniker der Central Intelligence Agency (CIA) wird konkreter: “Mehr ist immer besser … da man Punkte nicht verknüpfen kann, die man nicht hat, versuchen wir grundsätzlich alles zu sammeln, was wir sammeln können und behalten es für immer. Es liegt in sehr greifbarer Nähe, dass wir in der Lage sind, jede von Menschen verursachte Information zu verarbeiten.”

Ist Hunt womöglich nur ein Großmaul? Für den Verschlüsselungsexperten Bruce Schneier offenbar nicht. Er hat Zugang zu den Snowden-Dokumenten und sagt nach deren Durchsicht: “Wir wissen nicht exakt, was gesammelt wird, aber es darf als gesichert unterstellt werden, dass alles gesammelt wird. Computer generieren Transaktionsdaten als Abfallprodukt ihrer Rechnerei. Und da so ziemlich alles, was wir tun, mit Hilfe von Computern geschieht, produzieren wir mit allem was wir tun, personenbezogene Daten. Die NSA versucht alle dieser Daten zu sammeln. - Sie sollten dabei an Alles denken: Surfen, Einkaufen, Chatten, Kontakte zu Freunden. Denken Sie ans Telefonieren und wo Sie sich dabei aufhalten. Denken Sie an Alles, was nicht mit Hilfe von Bargeld abgewickelt wird, und so weiter, und so weiter. Wir wissen, dass Alles von der NSA gesammelt und in Datenbanken wie PRISM gespeichert wird.”

Um jegliche durch Menschen verursachte Information verarbeiten zu können, spannen die USA 2000 Firmen ein. Eine davon ist Convera mit seiner Suchmaschine ‘RetrievalWare’ – ein Werkzeug mit besonderen Fähigkeiten: Sie erstellt “Profile” wahlweise von Personen, Objekten oder Orten und kann dazu nicht nur Textdokumente online und offline nach Schlagworten durchsuchen, sondern auch “Zusammenhänge erfassen”: “Durch den Gebrauch von stabilen semantischen Netzen und Taxonomien, die viele Sprachen und fachspezifische Interessensgebiete abdecken, erkennt und verarbeitet RetrievalWare Worte, Sätze und Konzepte in ihrem spezifischen Kontext.”

Das wissenschaftliche Spezialgebiet wird als “Complex Event Processing (CEP)” bezeichnet. Bernhard Seeger, Professor im Fachbereich Mathematik und Informatik der Universität Marburg erläutert: “Ähnlich wie bei RSS-Feeds abonniert die CEP-Anwendung Datenströme bei einer oder mehreren unabhängigen Informationsquellen. Die Datenströme bestehen aus einer potenziell unendlichen Folge zeitlich geordneter Elemente beziehungsweise einfacher Events, die neben den fachlichen Informationen über einen Zeitstempel verfügen. Ein Beispiel für einen Datenstrom sind die Nachrichten, die zwischen Applikationen auf einem Enterprise Service Bus ausgetauscht werden und beispielsweise per Zeitstempel bekanntgeben, wann der Sender die Nachricht erzeugt hat.”

Die relevanten “Ereignisse” können von RetrievalWare “in bestimmte Ansichten abgebildet werden, die die personalisierten Wissensbedürfnisse, Rollen und Perspektiven eines jeden Nutzers wiederspiegelt”. So beschreibt es die Convera Corporation in ihrem “FORM 10-K ”-Bericht – einem nüchternen, vorgeschriebenen – Bericht an die US-Börsenaufsicht SEC im Jahr 2006.

Langweilig mögen andere Berichte sein – der von Convera ist es nicht: Das System ist polyglott und soll 45 Sprachen beherrschen. Es ist außerdem in der Lage, Bilder, Audio- und Videoinhalte sowie 200 weitere Datenformate zu verarbeiten. Es kooperiert mit Systemen wie Lotus Notes, Microsoft Exchange, Microsoft SQL Server, Oracle, DB2, Sybase, Informix, Teradata und “jeder ODBC- kompatiblen Datenbank”.

Im “FileRoom” lassen sich gescannte Dokumente, Bilder und Texte laden, indexieren und verwalten. Graphiken, Diagramme, handschriftliche Notizen und Unterschriften in den Suchtreffern sind sofort zugänglich.

Der “Screening Room” erlaubt es unter anderem, die Inhalte analoger und digitaler Videos “leistungsfähig” zu erschließen. Er bietet skalierbaren Zugang, Suche und Abruf von Videoinhalten von jedem Arbeitsplatz. In Verbindung mit ‘RetrievalWare Search’ ist es möglich, Videoinhalte zu erfassen, verschlüsseln, analysieren, katalogisieren, zu durchstöbern und aufzurufen – und zwar alles in ‘Echtzeit’: In dem Augenblick, in dem das Video verfügbar ist, wird es auch schon im Screening Room verarbeitet – Untertitel genauso wie gesprochene Konversationen. Hinzu kommen die Metadaten über Firmen-Netze. Die Anwender können aus den Videos heraus “einfach” “intelligente” Video-Drehbücher erstellen und in jedem Standard-Video-Dateiformat abspielen. Dadurch sollen sich die Inhalte beim nächsten Mal präzise und automatisch durchpflügen, durchsuchen und aufrufen lassen ohne das Material insgesamt erneut ansehen zu müssen.

RetrievalWare soll bereits vor acht Jahren über 4 Millarden Dokumente indexiert haben. In der Wahl seiner Quellen ist das System flexibel: “Der RetrievalWare Profiling Server filtert, speichert und verteilt eingehende Daten von vielen Quellen einschließlich Echtzeit News-Feeds, relationalen Datenbanken, Papierablagen und dem RetrievalWare Internet Spider”, wie es in dem SEC-Bericht heißt.

Der Internet Spider wiederum ist ein multimedialer, Hochleistungs-Webcrawler, mit dessen Hilfe sich die Such-Fähigkeiten von RetrievalWare ergänzen lassen – unabhängig davon, ob es als Einzelplatz-System betrieben oder in einer anderen Anwendung integriert ist. Das wirkt komfortabel – jede Veränderung im Netz wird verfolgt – und zwar ebenfalls “in Echtzeit”: In dem Augenblick, in dem die Internetseite geändert wird, nimmt RetrievalWare davon Notiz, aktualisiert das Profil und informiert einem Bericht der Washington Post zu Folge den zuständigen Sachbearbeiter. Neben HTML-basierten Webseiten durchpflügt er auch PDF Dokumente und multimediale Inhalte einschließlich Audio, Video und Bildern.

Auch verbal kann das System glänzen: Die Englische Sprachversion des semantischen Basisnetzes von RetrievalWare bietet 500.000 Wortbedeutungen, 50.000 Sprachphrasen und 1,6 Millionen Wortkombinationen. Die Anwender stellen umgangssprachliche Suchanfragen, die automatisch erweitert werden, um verknüpfte Ausdrücke und Konzepte zu finden. Auf diese Weise soll die Wahrscheinlichkeit erhöht werden, relevante Ergebnisse zu erhalten. Außerdem bietet RetrievalWare fachspezifische Komponenten an – etwa für die Disziplinen Biologie, Chemie, EDV, Elektronik, Finanzwissenschaft, Lebensmittelwissenschaft, Geographie, Geologie, Gesundheitswissenschaft, Informationswissenschaft, Recht, Mathematik, Medizin, Militär, Öl, Erdgas, Pharmazie, Physik, Kunststoffe und Telekommunikation. Für andere Fächer ließen sich unternehmensspezifische semantische Netze mit Hilfe von Convera entwickeln.

Die 185 Kunden von RetrievalWare sollen zu 70 Prozent Behörden US-Amerikanischen Ursprungs gewesen sein – unter anderem die Bundespolizei FBI, die Geheimdienste CIA und NSA, das Heimatschutz- und das Verteidigungsministerium. Aber auch “über ein Dutzend ausländische Geheimdienste”.

Offenbar war die Anzahl der Kunden nicht ausreichend, um das Unternehmen am Leben zu erhalten: 2007 wurde die Software an den Wettbewerber ‘Fast Search & Transfer’ verkauft, der einige Funktionen in eigene Anwendungen implementiert hat, aber dann selbst 2008 von Microsoft übernommen wurde. Heute firmiert das Unternehmen als ‘Microsoft Development Center Norway’. Microsoft leistet allerdings heute nur noch Service und Support.

Schenkt man Wikipedia Glauben, so ist Convera ein Kind des Risikokapitalgebers In-Q-Tel (IQT). Dieser wiederum gehört zum Geheimdienst CIA. Und In-Q-Tel hält Beteiligungen an dutzenden Firmen wie Convera, die – so Christopher Tucker, Chefstratege von In-Q-Tel bei deren Gründung 2001, “dem Dienst dabei helfen, seine Mission zu erfüllen”. Im Bereich Suchmaschinen sind es PiXlogic [PDF], Endeca , Inxight, MetaCarta, Attensity, NetBase, Platfora und Intelliseek.

Die In-Q-Tel Beteiligung Palantir hilft dabei, die gewonnenen Erkenntnisse weiterzuverarbeiten: Seit 2011 kooperieren Palantir und SAP im Dienste der öffentlichen Sicherheit: SAP verkauft Palantirs Software weltweit an die Behörden. Huddle wiederum ermöglicht es, die Daten in der Cloud zu halten. Die Firmen Mohomine und Stratify helfen dabei, die riesigen Datenmassen zu bewältigen.