Abschlussarbeiten in Data Science

Abschlussarbeiten in Data Science werden zweimal im Jahr durch den Prüfungsausschuss in einem zentralen Verfahren vergeben. Außerhalb dieses Prozesses können wir nur in seltenen Ausnahmefällen Themen vergeben.

Externe Abschlussarbeiten betreuen wir nur in Ausnahmefällen, falls die Aufgabenstellung gut zu den Forschungsthemen der Professur passt. Fragen Sie dazu bitte gezielt bei Prof. Schenkel nach, wenn Sie einen Vorschlag für ein Masterarbeitsthema haben, dass Sie außerhalb der Universität bearbeiten wollen.

Beispiele für in unserer Arbeitsgruppe abgeschlossene Masterarbeiten in Data Science

[MA] Natural Language Processing in Accounting

Abstract: This thesis offers an approach to detect booking duplicates by calculating sentence similarity as an application of Natural Language Processing. These bookings are exports of an accounting software. Among lots of other information, each booking has a booking note which is a short text written by the person who created the booking in the accounting software. The presented approach is part of a larger project in which all booking information is analyzed but in this thesis, solely the textual information of the notes is used for determining the similarity of two bookings. Several models are used for calculating the similarity of booking pairs and their results are compared. One important research objective is the comparison of the TFIDF as an application of the vector space model and language models as BERT and sentenceBERT which are using word and sentence embedding vectors. The best models achieve a F1-score of 0.6004 and an AUC-score of 0.555. Thorough analysis of True Positives, False Positives and False Negatives shows that embedding vectors not only offer advantages but other challenges are a consequence of using word embedding vectors when short texts are analyzed.

Keywords: Natural Language Processing - Duplicate Detection - Accounting - Short Texts

[MA] Automatic Fake News Detection on Tweets

 - kein Abstract verfügbar -

[MA] Validierung von Expertenaussagen und quantitativen Argumenten

 - kein Abstract verfügbar -

[MA] Emotion Analysis of COVID-19 related Tweets

 - kein Abstract verfügbar -

[MA] Leyk: A Paper Recommendation System on bibliographic meta data

 - kein Abstract verfügbar -

[MA] Bilingual Argumentative Discourse Unit Detection for Argument Mining on French and German Proceedings of the European Parliament

Abstract: Argumentation Mining aims at automatically extracting structured arguments from unstructured textual documents. This work addresses the conduction of a cross-lingual argumentation mining task, the detection of argumentative discourse units (ADU)s. Our contribution is two-fold: firstly, we extract a German and French ADU-annotated parallel corpus for further research, secondly, we thereupon compare five state-of-the-art language models (LM)s. Following the CRISP-DM framework for data mining, we prepare the data from the popular Europarl corpus by conducting a topic modeling to semantically trim corpus size. On the French and German subcorpus, annotations are made, distinguishing between the labels “non-argumentative”, “claim” and “premise”. Given the human baseline, in the modeling phase, the five LMs German BERT, German DistilBERT, CamemBERT, mBERT and mDistilBERT are compared on the sentence classification task. The task is performed by the LMs with moderate success. There is a performance difference between German and French models, leading to the insight that considering the input language as a feature and not only a parameter is crucial. Other than that, the beneficial influence of multilingual pretraining is discussed, triggering a need for further research.

[BA] Entwicklung eines Interfaces zur Realisierung erklärbarer Alignments für das FiLiPo System

Abstract: Datenintegration von RDF Wissensbasen ist eine wichtige Aufgabe, die eine immer größere Rolle spielt. Durch die Verwendung vieler verschiedener Datenquellen ist es möglich, den Datenbestand einer Wissensbasis zu erweitern oder gegebenenfalls fehlerhafte Informationen in der Wissensbasis zu korrigieren. Für diesen Zweck werden immer öfters Alignment-Systeme verwendet, welche das Schema einer Datenquelle mit dem einer anderen Datenquelle in einer solchen Weise in Beziehung setzen, sodass anschließend die Daten zwischen den Datenquellen übertragen werden können. Ein solches System ist FiLiPo (Finding Linkage Points). Es findet automatisch Abbildungen zwischen dem Schema einer lokalen RDF Wissensdatenbank und dem Schema einer Web API. Eine der aktuellen Herausforderungen bei solchen Systemen ist es, die Anwender mehr in den Prozess zu integrieren.  Vor allem, wenn es darum geht, den Anwendern zu erläutern, wie und warum das System bestimmte Entscheidungen getroffen hat. In dieser Bachelorarbeit wird daher eine Benutzeroberfläche für das Alignmentsystem FiLiPo präsentiert, welche die Daten von FiLiPo für Anwender grafisch aufbereitet. Die Benutzeroberfläche soll es Anwendern ermöglichen, die von FiLiPo erzeugten Alignments zu verstehen, zu analysieren und gegebenenfalls zu verändern oder zu entfernen.

[BA] Interaktive Exploration von RDF-Datensätzen mittels FCA

Abstract: Im Rahmen des Semantic Web können Informationen (Wissen) in sogenannten Wissensgraphen festgehalten werden. Diese können jedoch schnell zu einer unüberschaubaren Größe anwachsen, sodass sowohl der Inhalt als auch der Aufbau des Graphen für Menschen nur noch schwer nachzuvollziehen ist. Deswegen ist es notwendig, Wege zu finden, mit denen ein grundlegendes Verständnis über die Eigenschaften von Wissensgraphen geschaffen werden kann.

Ziel dieser Arbeit besteht darin, "Wissen über Wissensgraphen" automatisiert mittels dem mathematischen Modell der Formal Concept Analysis (FCA) zu ermitteln und dem Nutzer zu präsentieren. Daher wurde ein interaktives Tool entwickelt, mit dem ein Nutzer die Exploration von Wissensgraphen durchführen und selbst steuern kann.

Um die Wirkungsweise des Tools zu bestätigen, wurde dieses von einigen Personen getestet und anschließend bewertet. Die Testpersonen schätzten die User Experience und Usability des Tools als überwiegend positiv ein. Die als weniger gut bewerteten Aspekte bieten Anhaltspunkte für zukünftige Verbesserungen und Optimierungen, um die Nutzung des Tools noch attraktiver zu gestalten.

[BA] Development of a User Interface for Relation Alignment of RDF Knowledge Bases and Web APIs using the FiLiPo Framework

Abstract: In this final thesis the user interface for the FiLiPo system is presented. The development of such user interface requires a further study of problems and risks, the drafting of a concept and its implementation. One of the main goals was to develop an intuitive user interface that allows to use all the functionalities of the FiLiPo system. The thesis provides with the short introduction into schema alignment of RDF based knowledge bases and Web APIs. It also gives short information about the Angular framework that was used for the implementation. After describing the main requirements that have to be taken into consideration and giving answers on how to implement an intuitive user interface, the main concept is presented. It is based on already known solutions and examples, but still requires some creativity for the visualization of the alignment results. Then the implementation is documented. Using the Angular allows a quick integration of different components and their easy manipulation. The results of the user evaluation are presented that show if the concept and implementation were successful or not. In the end, we discuss on the further possible improvements.