Ontologie & Semantik: Unterschied zwischen den Versionen

Aus IT-Forensik Wiki
(Die Seite wurde neu angelegt: „TBD“)
 
Keine Bearbeitungszusammenfassung
 
(3 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt)
Zeile 1: Zeile 1:
TBD
Im Rahmen der forensischen Analyse sind unstrukturierte Massendaten zu bearbeiten. Es ist daher notwendig, Daten zu selektieren, um zu einer sinnvollen Reduzierung der Daten zu gelangen. Dafür gibt es viele Lösungsansätze. Nachfolgend soll das Konzept der Ontologie bzw. semantischen Ontologie vorgestellt werden.
 
== Semantik ==
 
Der Begriff "Semantik" meint die Bedeutung eines Wortes oder einer Phrase. Wenn zwei unterschiedliche Worte, dasselbe meinen, dann sind diese semantisch gleich. Diese semantische Identität wird als Synonym bezeichnet.<br>
 
Synonyme lassen sich nicht nur bei einem einzelnen Wort, sondern auch bei Wortgruppen definieren.<br>
 
Im Rahmen der täglichen Nutzung des Internets, begleitet uns die Semantik überall. Denn jede Suchmaschinen-Anfrage, setzt Algorithmen und formale Prozesse in Gang, mit denen die Eingaben klassifiziert und semantisch einsortiert werden, um im Anschluss die "besten" Suchergebnisse zu präsentieren.<br>
Ein Teil dieser Ergebnisfindung basiert auf semantischen Ontologien.<br>
 
Zum Beispiel:
* Kokain
* Koks
* Schnee
* White Stuff
* Charley
* etc.
 
Semantische Wortgruppen findet man häufig bei Redewendungen. Es gibt viele verschiedene Redewendungen bzw. Phrasen, welche dieselbe Bedeutung haben.<br>
 
Zum Beispiel:
* Jemanden zu töten
* Jemanden um die Ecke bringen
* Jemanden endgültig loswerden
* Jemanden erledigen
* Jemanden beseitigen
* Jemanden auslöschen
* usw.
(siehe auch <ref name="Wikipedia">Wikipedia.org (Online abrufbar: https://de.wikipedia.org/wiki/Ontologie_(Informatik), zuletzt geprüft am 2.08.2020)</ref>)
Anhand der beiden Beispiele wird ersichtlich, warum die Semantik bzw. semantische Zusammenhänge für die Arbeit eines Forensikers bzw. Ermittlers essenziell ist bzw. sind.<br>
 
Zusätzlich müssen, neben verschiedenen Sprachen, auch der Slang einer Sprache, dessen Dialekte sowie Schreibfehler und Abkürzungen Berücksichtigung finden, da diese ein automatisiertes Text-Mining erschweren (vgl. <ref name="Labudde">Dirk Labudde, Michael Spranger (Hrsg.): Forensik in der digitalen Welt - Moderne Methoden der forensischen Fallarbeit in der digitalen und digitalisierten realen Welt. Springer Verlag Deutschland, 2017</ref> S. 192; <ref name="Avni">Oren Avni, Tamara Knierim: Carving und semantische Analyse in der digitalen Forensik, FRAUNHOFER IGD-A8 SICHERHEITSTECHNOLOGIE, SEMINAR: DIGITAL FORENSICS, 08. JULI, 2010 (Online abrufbar: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.472.248&rep=rep1&type=pdf, zuletzt geprüft am 2.08.2020)</ref>  S. 15).
 
== Ontologie ==
 
Zweck der Ontologie ist die Wissensrepräsentation in strukturierter Form. Hier geht es darum, Informationen in einen gemeinsamen Kontext zu bringen, bzw. Informationen, die zu demselben Kontext gehören, in einer domänenspezifischen Ontologie zusammenzubringen. Diese Domänen können bereits bekannte Wissensdomänen sein, welche Entitäten in Relation zueinander bringen, sodass diese ein formales Abbild eines Teils der realen Welt darstellen. (vgl. <ref name="Dengel">Andreas Dengel (Hrsg.): Semantische Technologien. Grundlagen - Konzepte - Anwendungen. Spektrum Akademischer Verlag Heidelberg 2012</ref> S. 65, <ref name="Labudde" /> S. 173)<br>
 
Es wird umfassend und tiefgründig Wissen aus einer hochspezialisierten Domäne zu einer Domänenontologie modelliert. So werden neben der Beschreibung von allgemeinen Objekten, auch ein Glossar von grundlegenden Begrifflichkeiten und Objektbeschreibungen erstellt. (vgl. <ref name="Labudde" /> S. 173). Dies ist unter anderem nützlich, um mehrere an einer Ermittlung beteiligte Personen, auf einen einheitlichen Wissensstand zu bringen. Von wesentlicher Bedeutung ist es, dass mehrere Nutzer einer Ontologie sich auf die semantischen Inhalte einigen und diese anerkennen, um einen Konsens zu schaffen (vgl. <ref name="Dengel" /> S. 65).
 
== Praktische Anwendung von Ontologien ==
 
Die Autoren Cowie und Wilks (siehe <ref name="Labudde" /> S. 173, dort Referenz [8]) beschreiben Informationsextraktion (IE) als einen Prozess zur selektiven Strukturierung und Kombination von Daten (vgl. <ref name="Labudde" /> S. 173). Während die Autoren Russel und Norvig IE als eine "Sammlung von Wissen durch die Suche nach Vorkommen von Objekten spezifischer Klassen und deren Relationen untereinander in natürlichsprachlichen Texten" (<ref name="Labudde" /> S. 173, Abs. 2) definieren. Ontologien unterstützen somit den Prozess der Informationsextraktion. Weiterhin können sie ihr Potential am besten in einem Ontologie basierten IE-System (OBIE) entfalten (vgl. <ref name="Labudde" /> S. 173).<br>
 
In der Regel werden domänenspezifische Ontologien zusammen mit den Experten eines ausgewählten Themengebiets erstellt.<br>
 
Um eine Ontologie aufzubauen, müssen zunächst die relevanten Begriffe sowie deren Beziehungen zueinander identifiziert werden. Diese Begriffe werden '''Konzepte''' genannt. (vgl. <ref name="Dengel" /> S. 65). Dabei handelt es sich zunächst um abstrakte Objekte. Des Weiteren gibt es '''Instanzen'''. Das ist - analog zu objektorientierten Programmiersprachen - ein konkretes Beispiel, eine Instanz eines Konzeptes. Weiterhin gibt es '''Eigenschaften / Relationen''' wie z.B. "ist_ein", "lebt_mit", oder "hatte_zugriff_auf". Zuletzt gibt es '''Axiome''', welche Regeln für Zusammenhänge darstellen können. Dabei handelt es sich um Aussagen über Begriffe, ähnlich wie Eigenschaften. Sie beschreiben Gegebenheiten, die immer wahr sein müssen, wie z. B. "Ein Mensch ist ein Lebewesen." (<ref name="Dengel" /> S. 65 und <ref name="Avni" />, S. 14).<br>
 
Diese Strukturen müssen konzipiert und mithilfe einer formalen Sprache (wie RDF - Resource Description Framework oder OWL - Web Ontology Language) ausgedrückt werden, sodass sie maschinenlesbar werden. (<ref name="Avni" /> S. 15)<br>
 
Die Abbildung 1 zeigt die IT-Struktur eines ontologischen Informationssystems (aus <ref name="Furrer">Furrer, Frank, J.: Eine kurze Geschichte der Ontologie. Informatik-Spektrum, 2014. 37(4), pp.308-317. (Online abrufbar: https://link.springer.com/content/pdf/10.1007/s00287-012-0642-3.pdf, zuletzt geprüft am 2.08.2020)</ref> S. 313).
 
[[Datei:IT-Struktur für die Wissensverarbeitung aus Informatik Spektrum 37 4 2014.png|mittelpx|standard|zentriert|Abbildung 1 - IT-Struktur für die Wissensverarbeitung aus Informatik_Spektrum_37_4_2014]]
 
Die Abbildung 2 zeigt ein Beispiel einer Ontologie, wobei die gelben Nodes die Konzepte repräsentieren, die orangen Nodes die Instanzen (Objekte aus der realen Welt) und die türkisfarbene Node ein Axiom darstellt (hier ein Synonym für den Namen eines Serienmörders Dean Corll). (siehe <ref name="Avni" /> S. 15)<br>
 
[[Datei:Darstellung einer Ontologie innerhalb der Domäne Kriminologie.png|mittelpx|standard|zentriert|Abbildung 2 - Darstellung einer Ontologie innerhalb der Domäne Kriminologie]]
 
Mithilfe solcher Modelle und Anwendungen ist es möglich, typische Fragestellungen eines forensischen Analyseprozesses zu beantworten. Wie beispielsweise:
* Wer hatte Zugriff auf Daten?
* Welche Informationen wurden von wem und wann zuletzt genutzt?
* Gab es unautorisierte Zugriffe?
* Welche Internetseiten wurden besucht?
(vgl. <ref name="Avni" /> S. 15)<br>
 
Zusammenfassend werden semantische Zusammenhänge durch Ontologien in einem Modell mit relationalen Beziehungen abstrakt dargestellt. Diese Darstellung ist auch von relationalen Datenbanken bekannt, mit dem Unterschied, dass Datenbanken keinerlei Informationen über die Bedeutung ihrer Inhalte enthalten. Durch formalisierte Sprachen werden die Konzepte maschinenlesbar und ermöglichen damit eine Kommunikation zwischen zwei Anwendungen: eine Anwendung die beispielsweise natürlichsprachliche, textuelle Daten extrahiert und eine Anwendung, die mithilfe der ontologischen Modelle die Daten untersucht und wesentliche Informationen herausfiltert.<br>
 
Aktuell können diese Systeme den Forensiker bzw. Ermittler nur unterstützen, der immer noch als validierende Schnittstelle agieren muss. Eine vollständig automatisierte Lösung ist existiert noch nicht. Sobald technisch umsetzbar, werden jedoch die klassischen Ansätze von (statischen) semantischen Ontologie-Systemen in KI-Systeme integriert und durch diese erweitert bzw. werden ontologische KI-Systeme die bisherigen Ansätze ablösen.
 
== Quellen ==

Aktuelle Version vom 2. August 2020, 17:59 Uhr

Im Rahmen der forensischen Analyse sind unstrukturierte Massendaten zu bearbeiten. Es ist daher notwendig, Daten zu selektieren, um zu einer sinnvollen Reduzierung der Daten zu gelangen. Dafür gibt es viele Lösungsansätze. Nachfolgend soll das Konzept der Ontologie bzw. semantischen Ontologie vorgestellt werden.

Semantik

Der Begriff "Semantik" meint die Bedeutung eines Wortes oder einer Phrase. Wenn zwei unterschiedliche Worte, dasselbe meinen, dann sind diese semantisch gleich. Diese semantische Identität wird als Synonym bezeichnet.

Synonyme lassen sich nicht nur bei einem einzelnen Wort, sondern auch bei Wortgruppen definieren.

Im Rahmen der täglichen Nutzung des Internets, begleitet uns die Semantik überall. Denn jede Suchmaschinen-Anfrage, setzt Algorithmen und formale Prozesse in Gang, mit denen die Eingaben klassifiziert und semantisch einsortiert werden, um im Anschluss die "besten" Suchergebnisse zu präsentieren.

Ein Teil dieser Ergebnisfindung basiert auf semantischen Ontologien.

Zum Beispiel:

  • Kokain
  • Koks
  • Schnee
  • White Stuff
  • Charley
  • etc.

Semantische Wortgruppen findet man häufig bei Redewendungen. Es gibt viele verschiedene Redewendungen bzw. Phrasen, welche dieselbe Bedeutung haben.

Zum Beispiel:

  • Jemanden zu töten
  • Jemanden um die Ecke bringen
  • Jemanden endgültig loswerden
  • Jemanden erledigen
  • Jemanden beseitigen
  • Jemanden auslöschen
  • usw.

(siehe auch [1]) Anhand der beiden Beispiele wird ersichtlich, warum die Semantik bzw. semantische Zusammenhänge für die Arbeit eines Forensikers bzw. Ermittlers essenziell ist bzw. sind.

Zusätzlich müssen, neben verschiedenen Sprachen, auch der Slang einer Sprache, dessen Dialekte sowie Schreibfehler und Abkürzungen Berücksichtigung finden, da diese ein automatisiertes Text-Mining erschweren (vgl. [2] S. 192; [3] S. 15).

Ontologie

Zweck der Ontologie ist die Wissensrepräsentation in strukturierter Form. Hier geht es darum, Informationen in einen gemeinsamen Kontext zu bringen, bzw. Informationen, die zu demselben Kontext gehören, in einer domänenspezifischen Ontologie zusammenzubringen. Diese Domänen können bereits bekannte Wissensdomänen sein, welche Entitäten in Relation zueinander bringen, sodass diese ein formales Abbild eines Teils der realen Welt darstellen. (vgl. [4] S. 65, [2] S. 173)

Es wird umfassend und tiefgründig Wissen aus einer hochspezialisierten Domäne zu einer Domänenontologie modelliert. So werden neben der Beschreibung von allgemeinen Objekten, auch ein Glossar von grundlegenden Begrifflichkeiten und Objektbeschreibungen erstellt. (vgl. [2] S. 173). Dies ist unter anderem nützlich, um mehrere an einer Ermittlung beteiligte Personen, auf einen einheitlichen Wissensstand zu bringen. Von wesentlicher Bedeutung ist es, dass mehrere Nutzer einer Ontologie sich auf die semantischen Inhalte einigen und diese anerkennen, um einen Konsens zu schaffen (vgl. [4] S. 65).

Praktische Anwendung von Ontologien

Die Autoren Cowie und Wilks (siehe [2] S. 173, dort Referenz [8]) beschreiben Informationsextraktion (IE) als einen Prozess zur selektiven Strukturierung und Kombination von Daten (vgl. [2] S. 173). Während die Autoren Russel und Norvig IE als eine "Sammlung von Wissen durch die Suche nach Vorkommen von Objekten spezifischer Klassen und deren Relationen untereinander in natürlichsprachlichen Texten" ([2] S. 173, Abs. 2) definieren. Ontologien unterstützen somit den Prozess der Informationsextraktion. Weiterhin können sie ihr Potential am besten in einem Ontologie basierten IE-System (OBIE) entfalten (vgl. [2] S. 173).

In der Regel werden domänenspezifische Ontologien zusammen mit den Experten eines ausgewählten Themengebiets erstellt.

Um eine Ontologie aufzubauen, müssen zunächst die relevanten Begriffe sowie deren Beziehungen zueinander identifiziert werden. Diese Begriffe werden Konzepte genannt. (vgl. [4] S. 65). Dabei handelt es sich zunächst um abstrakte Objekte. Des Weiteren gibt es Instanzen. Das ist - analog zu objektorientierten Programmiersprachen - ein konkretes Beispiel, eine Instanz eines Konzeptes. Weiterhin gibt es Eigenschaften / Relationen wie z.B. "ist_ein", "lebt_mit", oder "hatte_zugriff_auf". Zuletzt gibt es Axiome, welche Regeln für Zusammenhänge darstellen können. Dabei handelt es sich um Aussagen über Begriffe, ähnlich wie Eigenschaften. Sie beschreiben Gegebenheiten, die immer wahr sein müssen, wie z. B. "Ein Mensch ist ein Lebewesen." ([4] S. 65 und [3], S. 14).

Diese Strukturen müssen konzipiert und mithilfe einer formalen Sprache (wie RDF - Resource Description Framework oder OWL - Web Ontology Language) ausgedrückt werden, sodass sie maschinenlesbar werden. ([3] S. 15)

Die Abbildung 1 zeigt die IT-Struktur eines ontologischen Informationssystems (aus [5] S. 313).

Abbildung 1 - IT-Struktur für die Wissensverarbeitung aus Informatik_Spektrum_37_4_2014

Die Abbildung 2 zeigt ein Beispiel einer Ontologie, wobei die gelben Nodes die Konzepte repräsentieren, die orangen Nodes die Instanzen (Objekte aus der realen Welt) und die türkisfarbene Node ein Axiom darstellt (hier ein Synonym für den Namen eines Serienmörders Dean Corll). (siehe [3] S. 15)

Abbildung 2 - Darstellung einer Ontologie innerhalb der Domäne Kriminologie

Mithilfe solcher Modelle und Anwendungen ist es möglich, typische Fragestellungen eines forensischen Analyseprozesses zu beantworten. Wie beispielsweise:

  • Wer hatte Zugriff auf Daten?
  • Welche Informationen wurden von wem und wann zuletzt genutzt?
  • Gab es unautorisierte Zugriffe?
  • Welche Internetseiten wurden besucht?

(vgl. [3] S. 15)

Zusammenfassend werden semantische Zusammenhänge durch Ontologien in einem Modell mit relationalen Beziehungen abstrakt dargestellt. Diese Darstellung ist auch von relationalen Datenbanken bekannt, mit dem Unterschied, dass Datenbanken keinerlei Informationen über die Bedeutung ihrer Inhalte enthalten. Durch formalisierte Sprachen werden die Konzepte maschinenlesbar und ermöglichen damit eine Kommunikation zwischen zwei Anwendungen: eine Anwendung die beispielsweise natürlichsprachliche, textuelle Daten extrahiert und eine Anwendung, die mithilfe der ontologischen Modelle die Daten untersucht und wesentliche Informationen herausfiltert.

Aktuell können diese Systeme den Forensiker bzw. Ermittler nur unterstützen, der immer noch als validierende Schnittstelle agieren muss. Eine vollständig automatisierte Lösung ist existiert noch nicht. Sobald technisch umsetzbar, werden jedoch die klassischen Ansätze von (statischen) semantischen Ontologie-Systemen in KI-Systeme integriert und durch diese erweitert bzw. werden ontologische KI-Systeme die bisherigen Ansätze ablösen.

Quellen

  1. Wikipedia.org (Online abrufbar: https://de.wikipedia.org/wiki/Ontologie_(Informatik), zuletzt geprüft am 2.08.2020)
  2. 2,0 2,1 2,2 2,3 2,4 2,5 2,6 Dirk Labudde, Michael Spranger (Hrsg.): Forensik in der digitalen Welt - Moderne Methoden der forensischen Fallarbeit in der digitalen und digitalisierten realen Welt. Springer Verlag Deutschland, 2017
  3. 3,0 3,1 3,2 3,3 3,4 Oren Avni, Tamara Knierim: Carving und semantische Analyse in der digitalen Forensik, FRAUNHOFER IGD-A8 SICHERHEITSTECHNOLOGIE, SEMINAR: DIGITAL FORENSICS, 08. JULI, 2010 (Online abrufbar: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.472.248&rep=rep1&type=pdf, zuletzt geprüft am 2.08.2020)
  4. 4,0 4,1 4,2 4,3 Andreas Dengel (Hrsg.): Semantische Technologien. Grundlagen - Konzepte - Anwendungen. Spektrum Akademischer Verlag Heidelberg 2012
  5. Furrer, Frank, J.: Eine kurze Geschichte der Ontologie. Informatik-Spektrum, 2014. 37(4), pp.308-317. (Online abrufbar: https://link.springer.com/content/pdf/10.1007/s00287-012-0642-3.pdf, zuletzt geprüft am 2.08.2020)