Von der Kraft der Metadaten

(hpd) Der frühere CIA-Direktor David Petraeus bekundete 2012 seine Absicht, die Menschen dabei zu beobachten, wie sie das Licht in ihrem Wohnzimmer mit Hilfe ihres “intelligenten” Telefons einschalten. Bedauerlicherweise muss Petraeus dieses Vergnügen seinem Nachfolger überlassen: Der CIA-Chef stolperte über eine außereheliche Beziehung mit seiner Biographin Paula Broadwell.

 

Wie ein Geheimdienst-Chef Opfer seiner Überwachungsdoktrin wurde

“Um die Nadel zu finden, braucht man den Heuhaufen”, so die angebliche Überzeugung von NSA- (National Security Agency) Direktor Keith Alexander. Ira Hunt, Chef-Techniker der Central Intelligence Agency (CIA) wird konkreter: “Mehr ist immer besser … da man Punkte nicht verknüpfen kann, die man nicht hat, versuchen wir grundsätzlich alles zu sammeln, was wir sammeln können und behalten es für immer. Es liegt in sehr greifbarer Nähe, dass wir in der Lage sind, jede von Menschen verursachte Information zu verarbeiten.”

Ist Hunt womöglich nur ein Großmaul? Für den Verschlüsselungsexperten Bruce Schneier offenbar nicht. Er hat Zugang zu den Snowden-Dokumenten und sagt nach deren Durchsicht: “Wir wissen nicht exakt, was gesammelt wird, aber es darf als gesichert unterstellt werden, dass alles gesammelt wird. Computer generieren Transaktionsdaten als Abfallprodukt ihrer Rechnerei. Und da so ziemlich alles, was wir tun, mit Hilfe von Computern geschieht, produzieren wir mit allem was wir tun, personenbezogene Daten. Die NSA versucht alle dieser Daten zu sammeln. - Sie sollten dabei an Alles denken: Surfen, Einkaufen, Chatten, Kontakte zu Freunden. Denken Sie ans Telefonieren und wo Sie sich dabei aufhalten. Denken Sie an Alles, was nicht mit Hilfe von Bargeld abgewickelt wird, und so weiter, und so weiter. Wir wissen, dass Alles von der NSA gesammelt und in Datenbanken wie PRISM gespeichert wird.”

Um jegliche durch Menschen verursachte Information verarbeiten zu können, spannen die USA 2000 Firmen ein. Eine davon ist Convera mit seiner Suchmaschine ‘RetrievalWare’ – ein Werkzeug mit besonderen Fähigkeiten: Sie erstellt “Profile” wahlweise von Personen, Objekten oder Orten und kann dazu nicht nur Textdokumente online und offline nach Schlagworten durchsuchen, sondern auch “Zusammenhänge erfassen”: “Durch den Gebrauch von stabilen semantischen Netzen und Taxonomien, die viele Sprachen und fachspezifische Interessensgebiete abdecken, erkennt und verarbeitet RetrievalWare Worte, Sätze und Konzepte in ihrem spezifischen Kontext.”

Das wissenschaftliche Spezialgebiet wird als “Complex Event Processing (CEP)” bezeichnet. Bernhard Seeger, Professor im Fachbereich Mathematik und Informatik der Universität Marburg erläutert: “Ähnlich wie bei RSS-Feeds abonniert die CEP-Anwendung Datenströme bei einer oder mehreren unabhängigen Informationsquellen. Die Datenströme bestehen aus einer potenziell unendlichen Folge zeitlich geordneter Elemente beziehungsweise einfacher Events, die neben den fachlichen Informationen über einen Zeitstempel verfügen. Ein Beispiel für einen Datenstrom sind die Nachrichten, die zwischen Applikationen auf einem Enterprise Service Bus ausgetauscht werden und beispielsweise per Zeitstempel bekanntgeben, wann der Sender die Nachricht erzeugt hat.”

Die relevanten “Ereignisse” können von RetrievalWare “in bestimmte Ansichten abgebildet werden, die die personalisierten Wissensbedürfnisse, Rollen und Perspektiven eines jeden Nutzers wiederspiegelt”. So beschreibt es die Convera Corporation in ihrem “FORM 10-K ”-Bericht – einem nüchternen, vorgeschriebenen – Bericht an die US-Börsenaufsicht SEC im Jahr 2006.

Langweilig mögen andere Berichte sein – der von Convera ist es nicht: Das System ist polyglott und soll 45 Sprachen beherrschen. Es ist außerdem in der Lage, Bilder, Audio- und Videoinhalte sowie 200 weitere Datenformate zu verarbeiten. Es kooperiert mit Systemen wie Lotus Notes, Microsoft Exchange, Microsoft SQL Server, Oracle, DB2, Sybase, Informix, Teradata und “jeder ODBC- kompatiblen Datenbank”.

Im “FileRoom” lassen sich gescannte Dokumente, Bilder und Texte laden, indexieren und verwalten. Graphiken, Diagramme, handschriftliche Notizen und Unterschriften in den Suchtreffern sind sofort zugänglich.

Der “Screening Room” erlaubt es unter anderem, die Inhalte analoger und digitaler Videos “leistungsfähig” zu erschließen. Er bietet skalierbaren Zugang, Suche und Abruf von Videoinhalten von jedem Arbeitsplatz. In Verbindung mit ‘RetrievalWare Search’ ist es möglich, Videoinhalte zu erfassen, verschlüsseln, analysieren, katalogisieren, zu durchstöbern und aufzurufen – und zwar alles in ‘Echtzeit’: In dem Augenblick, in dem das Video verfügbar ist, wird es auch schon im Screening Room verarbeitet – Untertitel genauso wie gesprochene Konversationen. Hinzu kommen die Metadaten über Firmen-Netze. Die Anwender können aus den Videos heraus “einfach” “intelligente” Video-Drehbücher erstellen und in jedem Standard-Video-Dateiformat abspielen. Dadurch sollen sich die Inhalte beim nächsten Mal präzise und automatisch durchpflügen, durchsuchen und aufrufen lassen ohne das Material insgesamt erneut ansehen zu müssen.

RetrievalWare soll bereits vor acht Jahren über 4 Millarden Dokumente indexiert haben. In der Wahl seiner Quellen ist das System flexibel: “Der RetrievalWare Profiling Server filtert, speichert und verteilt eingehende Daten von vielen Quellen einschließlich Echtzeit News-Feeds, relationalen Datenbanken, Papierablagen und dem RetrievalWare Internet Spider”, wie es in dem SEC-Bericht heißt.

Der Internet Spider wiederum ist ein multimedialer, Hochleistungs-Webcrawler, mit dessen Hilfe sich die Such-Fähigkeiten von RetrievalWare ergänzen lassen – unabhängig davon, ob es als Einzelplatz-System betrieben oder in einer anderen Anwendung integriert ist. Das wirkt komfortabel – jede Veränderung im Netz wird verfolgt – und zwar ebenfalls “in Echtzeit”: In dem Augenblick, in dem die Internetseite geändert wird, nimmt RetrievalWare davon Notiz, aktualisiert das Profil und informiert einem Bericht der Washington Post zu Folge den zuständigen Sachbearbeiter. Neben HTML-basierten Webseiten durchpflügt er auch PDF Dokumente und multimediale Inhalte einschließlich Audio, Video und Bildern.

Auch verbal kann das System glänzen: Die Englische Sprachversion des semantischen Basisnetzes von RetrievalWare bietet 500.000 Wortbedeutungen, 50.000 Sprachphrasen und 1,6 Millionen Wortkombinationen. Die Anwender stellen umgangssprachliche Suchanfragen, die automatisch erweitert werden, um verknüpfte Ausdrücke und Konzepte zu finden. Auf diese Weise soll die Wahrscheinlichkeit erhöht werden, relevante Ergebnisse zu erhalten. Außerdem bietet RetrievalWare fachspezifische Komponenten an – etwa für die Disziplinen Biologie, Chemie, EDV, Elektronik, Finanzwissenschaft, Lebensmittelwissenschaft, Geographie, Geologie, Gesundheitswissenschaft, Informationswissenschaft, Recht, Mathematik, Medizin, Militär, Öl, Erdgas, Pharmazie, Physik, Kunststoffe und Telekommunikation. Für andere Fächer ließen sich unternehmensspezifische semantische Netze mit Hilfe von Convera entwickeln.

Die 185 Kunden von RetrievalWare sollen zu 70 Prozent Behörden US-Amerikanischen Ursprungs gewesen sein – unter anderem die Bundespolizei FBI, die Geheimdienste CIA und NSA, das Heimatschutz- und das Verteidigungsministerium. Aber auch “über ein Dutzend ausländische Geheimdienste”.

Offenbar war die Anzahl der Kunden nicht ausreichend, um das Unternehmen am Leben zu erhalten: 2007 wurde die Software an den Wettbewerber ‘Fast Search & Transfer’ verkauft, der einige Funktionen in eigene Anwendungen implementiert hat, aber dann selbst 2008 von Microsoft übernommen wurde. Heute firmiert das Unternehmen als ‘Microsoft Development Center Norway’. Microsoft leistet allerdings heute nur noch Service und Support.

Schenkt man Wikipedia Glauben, so ist Convera ein Kind des Risikokapitalgebers In-Q-Tel (IQT). Dieser wiederum gehört zum Geheimdienst CIA. Und In-Q-Tel hält Beteiligungen an dutzenden Firmen wie Convera, die – so Christopher Tucker, Chefstratege von In-Q-Tel bei deren Gründung 2001, “dem Dienst dabei helfen, seine Mission zu erfüllen”. Im Bereich Suchmaschinen sind es PiXlogic [PDF], Endeca , Inxight, MetaCarta, Attensity, NetBase, Platfora und Intelliseek.

Die In-Q-Tel Beteiligung Palantir hilft dabei, die gewonnenen Erkenntnisse weiterzuverarbeiten: Seit 2011 kooperieren Palantir und SAP im Dienste der öffentlichen Sicherheit: SAP verkauft Palantirs Software weltweit an die Behörden. Huddle wiederum ermöglicht es, die Daten in der Cloud zu halten. Die Firmen Mohomine und Stratify helfen dabei, die riesigen Datenmassen zu bewältigen.

Visual Sciences will “marktführend darin sein, rechtzeitige, genaue, verständliche und gerichtsfähige Beweise zu liefern, die von unseren Kunden benötigt werden, um belastbare und wirtschaftliche Entscheidungen mit Hilfe ihrer riesigen Datenbestände in Echtzeit zu treffen.” Dazu gehören die Auswertung von Telefondaten und -gesprächen und die Internetaktivitäten. Mit der Analyse von Daten beschäftigen sich außerdem die In-Q-Tel-Beteiligungen Spotfire, ReversingLabs, RecordedFuture, Platfora und Geosemble.

Die Arizona State University hilft dabei, Handschriften zu erkennen; dabei ist die Technik nicht nur in der Lage, handschriftlichen Notizen eine Bedeutung zuzuweisen, sondern auch den Urheber dieser Notizen zu identifizieren [PDF].

Carnegie Speech und der CallMiner analysieren menschliche Sprache. Da ist es konsequent, dass die US-Sicherheitsbehörden neben Kameras auch Mikrofone im öffentlichen Raum installieren – zuletzt in 55 Bussen in Portland, im US-Bundesstaat Oregon. In Washington sollen es 300 Sensoren auf 20 Quadratmeilen (~ 52 km²) sein, 70 Städte beobachteten die Einwohner auf diese Weise 2012. Aber wie erhalten die belauschten Gespräche eine Bedeutung? Die Menschen auf der Straße sind doch anonym? Da könnten abgehörte Telefonate hilfreich sein – so schreiben Wissenschaftler der Bina Nusantara University in Jarkata in einem Aufsatz: “Die Methoden der Spracherkennung nutzt die allgemein üblichen Schritte: Merkmalserkennung (Hier: Belauschen von Gesprächen, Anm. d. Autors), Sprachmusterdatenbank und Mustervergleich.” Das heißt die bisher geführten Telefonate des “Verdächtigen” können als Referenzdaten genutzt werden, um die Zielperson bei ihren Gesprächen in der Öffentlichkeit zu identifizieren. Genauso eignet sich der Webbrowser Google Chrome als Referenz: Dessen Mikrofon lässt sich – vom Nutzer unbemerkt! – von außen als Wanze nutzen.

Die IQT-Firmen Basis Technology, Language Weaver und Lingotek wollen Sprache übersetzen. Deren Branche hat viel vor: Automatische Sprachverarbeitung soll heute in Echtzeit möglich sein; und zwar in “78 Sprachen”, verspricht die Werbung.

Ähnlich sieht es bei der Verarbeitung von Bildern aus – ab April 2014 wird die Gesichtserkennung in den USA “radikal” ausgebaut: So will das “Janus Programm” nicht nur auf Fahndungsfotos, sondern auch auf Bilder des realen Lebens – etwa von Überwachungskameras – zugreifen. Mit solchen Kameras ist nicht nur in der Luft, auf Bahnhöfen, Flughäfen und vor privaten Immobilien zu rechnen, sondern auch in Umkleidekabinen, auf dem Straßenstrich, an Bushaltestellen, in Schwimmbädern und Schultoiletten sowie in Schaufenstern, e-Litfaßsäulen und e-Plakaten. Nur sind die Kameras nicht immer dicht: Leck sind sowohl zigtausende öffentliche IP-Überwachungskameras weltweit als auch die Videokonferenzsysteme in Vorstandsbüros, Forschungseinrichtungen und Anwaltskanzleien – wobei letztere mitunter durch eine bemerkenswerte Bildqualität bestechen: Auf Zetteln notierte Passwörter sollen sich auf eine Distanz von sechs Metern erkennen lassen.

Interessant ist die Bilderkennung auch für die glücklichen Anwender von Spieleboxen: Der Journalist Glenn Greenwald behauptet, Microsoft habe den Behörden NSA, FBI und CIA Zugang zu den verschlüsselten Video-, Audio- und Text-Daten gewährt. So ist durchaus plausibel, dass die Bilder aus der Xbox von Microsoft den Diensten zugänglich sind.

Die Datenbrille Google Glass ist bereits durch ein Loch aufgefallen. Die Sicherheitsfirma Symantec meint, Kriminelle hätten an Nutzerdaten kommen können. Das wäre nicht nur für den problematisch, der die Brille trägt, sondern auch für den, der an dieser Brille vorbeiläuft. Der Berliner Beauftragte für den Datenschutz orakelte ([PDF], Vgl S. 15) bereits in seinem Jahresbericht 2011: “Videoüberwachung pervertiert zum Volkssport”. Kein Wunder: Videodrohnen mit vier Rotoren gibt’s bereits für 29,95 US-Dollar.

Wer den Ereignissen einen geographischen Bezug zuweisen möchte, kann das womöglich mit Hilfe der In-Q-Tel Beteiligungen GeoIQ oder TerraGo tun.

Die IQT-Firma Digital Reasoning – ein Spezialist bei der Verarbeitung “unstrukturierter Daten” wie Mails oder Bildern - unterstützt IBM zusammen mit Dutzenden weiteren Firmen bei der Verarbeitung der vielen Daten. Bei solchen Datenmengen gibt’s schnell Dopplungen: Ist der Autor einer Mail identisch mit der Person, die an einer Überwachungskamera vorbeigelaufen ist, oder tragen die beiden unterschiedlichen Personen nur zufällig beide den Namen “Müller-Lüdenscheid”? Solche Unklarheiten lassen sich mit Hilfe von “Identity Resolution Software” aufklären. IBM hat dazu bereits vor Jahren den Spezialisten “SRD” von In-Q-Tel übernommen.

Seinen bunten Technikstrauß hat IBM in Hardware gegossen. Das Ergebnis heißt “Watson”; wie mächtig die Kiste ist, demonstrierte der Konzern 2011 in der Quizsendung Jeopardy: Bereits damals war das System in der US-Amerikanischen Version von “Wer wird Millionär” in der Lage, die Fragen des Moderators – in natürlicher Sprache! - schneller zu beantworten als seine menschlichen Wettbewerber - immerhin beide “Champions” dieses Wettbewerbs. Zdnet.com spekulierte damals darüber, ob Watson “unser Computer-Oberherr” würde. Jetzt jedenfalls will der Konzern Kapital aus Watson schlagen – Ärzte sollen ihre Diagnosen mit der neuen Watson-Technologie “diskutieren” können; Architekten können Statik- und Designvorschläge erhalten; der Chefsyndikus von ‘Big Blue’ stellt den Anwälten einen “digitalen Assistenten” mit einer “gewaltigen, eigenständigen Datenbank” in Aussicht “die alle interne und externe Informationen enthält, die für die täglichen Aufgaben nötig sind.” Die Liste lässt sich fortsetzen. Das Alles steht demnächst als Service übers “intelligente” Telefon bereit. Und der Heuhaufen schwillt merklich an.

Unter anderem wegen der biotechnischen Spuren, die er hinterlässt – Dutzende weitere In-Q-Tel-Engagements beschäftigen sich mit der Aufbereitung, dem Erhalt und der Aufklärung dieser Spuren: Biomatrica entwickelt eine kostengünstige Technik, mit deren Hilfe die Geheimdienste biologische Proben bei Raumtemperaturen lagern können, T2 Biosystems will die medizinische, Arcxis die molekularbiologische Diagnostik voranbringen. Die febit group und Boreal Genomics rücken den Geheimnissen des Genoms zu Leibe.

Und die Dienste wollen auch an unser Oberstübchen - der Bestsellerautor und Geheimdienst-Experte James Bamford berichtete bereits 2009: Die NSA entwickle mit AQUAINT “ein Werkzeug, das George Orwells Gedankenpolizei nützlich gefunden hätte: Ein künstlich-intelligentes System, um Zugang zum Denken der Menschen zu erhalten.”

Dafür könnten die genannten und weitere Datenquellen hilfreich sein: Zahlreiche Unternehmer in den Bereichen Elektrizität, Elektronik, Video, Datenzentren und Sicherheits-Tests erfreuen sich der geheimdienstlichen Unterstützung durch IQT.

AdaptiveEnergy entwickelt Technik fürs “Energie Harvesting”; dabei werden kleine Mengen von elektrischer Energie aus Quellen wie Umgebungstemperatur, Vibrationen oder Luftströmungen für mobile Geräte mit geringer Leistung gewonnen. ‘Miserware’ hilft dem Notebook-Nutzer Strom zu sparen.

Nanosys will die Qualität von LED-Bildschirmen mit Hilfe von Nanotechnik verbessern. Wispry entwickelt Chips für Mobiltelefone.

Das Jungunternehmen Perceptive Pixel beschäftigte sich mit berührungsempfindlichen Bildschirmen und wurde 2012 an Microsoft verkauft. Heute bietet der Konzern sowohl berührungsempfindliche Eingabegeräte wie auch Fingerabdruckscanner an. Nicht nur die Überwachung ist dabei bedrohlich: Fingerabdrücke lassen sich auf Latexhandschuhe übertragen – sagt das Bundeskriminalamt; und sie werden auch mal unbeabsichtigt von Behörden im Netz veröffentlicht oder gestohlen [PDF].

PlateScan bietet Software zur Erkennung von Autokennzeichen an, um diese dann mit den Einträgen in behördlichen Datenbanken zu vergleichen. Vom Zeitpunkt der Nummernschild-Erkennung bis zum Datenbankabgleich benötigt das System angeblich nur eine Sekunde.

Die Ember Corporation und Tendril Networks helfen beim Stromsparen im intelligenten Haushalt mit Hilfe mobiler Sensoren. Im RFID-Markt bewegen sich außerdem die IQT-Investitionen Paratek, Streambase und Thingmagic.

Ob diese Unternehmen und ihre Produkte von der CIA und anderen Geheimdiensten als Vehikel genutzt werden, um deren Kunden auszuspähen, ist nicht bekannt. Zdnet berichtete jedenfalls kürzlich darüber, dass die NSA PC, Router und Festplatten infiziert haben soll.

Der frühere CIA-Direktor David Petraeus bekundete 2012 seine Absicht, die Menschen dabei zu beobachten, wie sie das Licht in ihrem Wohnzimmer mit Hilfe ihres “intelligenten” Telefons einschalten. Bedauerlicherweise muss Petraeus dieses Vergnügen seinem Nachfolger überlassen: Der CIA-Chef stolperte über eine außereheliche Beziehung mit seiner Biographin Paula Broadwell.

Diese kam durch eine Analyse von “Metadaten” ans Licht: Die US-Bundespolizei FBI beobachtete ein elektronisches Postfach, von dem belästigende Mails verschickt wurden. Diese ließen sich auf ein Wlan-Netz in einem Hotel zurückverfolgen und mit der Gästeliste des Hotels vergleichen. Schließlich korrespondierten Broadwell und Petraeus gleichzeitig über den “Entwurfs”-Ordner eines zweiten Postfachs über ihre Liebesbeziehung miteinander. Die belästigenden Mails an die vermeintliche Nebenbuhlerin und die Nachrichten der verliebten Broadwell kamen von ein und derselben IP-Adresse.

In der Informationsgesellschaft ist kein Heuhaufen mehr nötig, um ein Opfer zu Fall zu bringen; insbesondere für die “Großkopferten” kann eine Nadel völlig ausreichen.

Joachim Jakobs

 

Übernahme mit freundlicher Genehmigung des Autors von ITespresso und ZDNet.