Bachelor- und Masterarbeiten

Bachelor- und Masterarbeiten können auf Deutsch oder nach Absprache auch auf Englisch verfasst werden.

Themen

Generell bieten wir Themen aus den Bereichen Datenbanken, Information Retrieval und semantische Informationssysteme. Genauer gehören unsere Themen vorwiegend einem oder mehreren der Bereiche Suche in semistrukturierten Daten, Integration heterogener Informationsquellen, Effizienz großer Suchmaschinen, Conversational Information Retrieval, Natural Language Processing, Human Computer Interaction, Datenintegration, Query Processing, Semantic Web, Computational Argumentation (Ranking, Clustering, Validierung und Extraktion von Argumenten aus natürlichsprachlichen Texten), wissenschaftliche Empfehlungssysteme, domänenspezifische Anfragesprachen und Scientometrics an.

Das Thema einer Arbeit bestimmt, welche Person die Arbeit betreut. Die thematischen Schwerpunkte der Betreuenden finden sich auf deren persönlichen Seite unter Team.

Falls Sie Interesse an einem Thema haben, welches vom Lehrstuhl vorgeschlagen wird oder falls Sie einen eigenen Themenvorschlag für eine Bachelor- oder Masterarbeit haben, kontaktieren Sie bitte Prof. Dr. Ralf Schenkel. Falls Sie bereits mit einem Mitarbeiter oder einer Mitarbeiterin des Lehrstuhls über ein mögliches Thema gesprochen haben, geben Sie dies bitte ebenfalls in Ihrer Mail mit an.

Voraussetzungen

Bitte senden Sie uns eine Liste Ihrer erfolgreich abgeschlossenen Module bei Ihrer Anfrage nach einer Abschlussarbeit mit. Diese Übersicht hilft uns einzuschätzen, welches mögliche Thema zu Ihren Kenntnissen passen könnte.

Für eine Bachelorarbeit erwarten wir, dass Sie (soweit in Ihrem Modulplan als Pflichtmodul enthalten) bereits folgende Module erfolgreich abgeschlossen haben, bevor Sie sich um ein Thema bei uns bemühen, da die Kenntnisse für den erfolgreichen Abschluss einer Bachelorarbeit in unseren Themen sehr hilfreich sind: Datenbanksysteme, Nichtrelationale Informationssysteme, Informatik-Projekt (Großes Studienprojekt), Fortgeschrittene Programmierung (Programmierung II).


Abgeschlossene Bachelorarbeiten

[MA] Natural Language Processing in Accounting

Abstract: This thesis offers an approach to detect booking duplicates by calculating sentence similarity as an application of Natural Language Processing. These bookings are exports of an accounting software. Among lots of other information, each booking has a booking note which is a short text written by the person who created the booking in the accounting software. The presented approach is part of a larger project in which all booking information is analyzed but in this thesis, solely the textual information of the notes is used for determining the similarity of two bookings. Several models are used for calculating the similarity of booking pairs and their results are compared. One important research objective is the comparison of the TFIDF as an application of the vector space model and language models as BERT and sentenceBERT which are using word and sentence embedding vectors. The best models achieve a F1-score of 0.6004 and an AUC-score of 0.555. Thorough analysis of True Positives, False Positives and False Negatives shows that embedding vectors not only offer advantages but other challenges are a consequence of using word embedding vectors when short texts are analyzed.

Keywords: Natural Language Processing - Duplicate Detection - Accounting - Short Texts

[MA] Automatic Fake News Detection on Tweets

 - kein Abstract verfügbar -

[MA] Validierung von Expertenaussagen und quantitativen Argumenten

 - kein Abstract verfügbar -

[MA] Emotion Analysis of COVID-19 related Tweets

 - kein Abstract verfügbar -

[MA] Leyk: A Paper Recommendation System on bibliographic meta data

 - kein Abstract verfügbar -

[MA] Bilingual Argumentative Discourse Unit Detection for Argument Mining on French and German Proceedings of the European Parliament

Abstract: Argumentation Mining aims at automatically extracting structured arguments from unstructured textual documents. This work addresses the conduction of a cross-lingual argumentation mining task, the detection of argumentative discourse units (ADU)s. Our contribution is two-fold: firstly, we extract a German and French ADU-annotated parallel corpus for further research, secondly, we thereupon compare five state-of-the-art language models (LM)s. Following the CRISP-DM framework for data mining, we prepare the data from the popular Europarl corpus by conducting a topic modeling to semantically trim corpus size. On the French and German subcorpus, annotations are made, distinguishing between the labels “non-argumentative”, “claim” and “premise”. Given the human baseline, in the modeling phase, the five LMs German BERT, German DistilBERT, CamemBERT, mBERT and mDistilBERT are compared on the sentence classification task. The task is performed by the LMs with moderate success. There is a performance difference between German and French models, leading to the insight that considering the input language as a feature and not only a parameter is crucial. Other than that, the beneficial influence of multilingual pretraining is discussed, triggering a need for further research.

[BA] Entwicklung eines Interfaces zur Realisierung erklärbarer Alignments für das FiLiPo System

Abstract: Datenintegration von RDF Wissensbasen ist eine wichtige Aufgabe, die eine immer größere Rolle spielt. Durch die Verwendung vieler verschiedener Datenquellen ist es möglich, den Datenbestand einer Wissensbasis zu erweitern oder gegebenenfalls fehlerhafte Informationen in der Wissensbasis zu korrigieren. Für diesen Zweck werden immer öfters Alignment-Systeme verwendet, welche das Schema einer Datenquelle mit dem einer anderen Datenquelle in einer solchen Weise in Beziehung setzen, sodass anschließend die Daten zwischen den Datenquellen übertragen werden können. Ein solches System ist FiLiPo (Finding Linkage Points). Es findet automatisch Abbildungen zwischen dem Schema einer lokalen RDF Wissensdatenbank und dem Schema einer Web API. Eine der aktuellen Herausforderungen bei solchen Systemen ist es, die Anwender mehr in den Prozess zu integrieren.  Vor allem, wenn es darum geht, den Anwendern zu erläutern, wie und warum das System bestimmte Entscheidungen getroffen hat. In dieser Bachelorarbeit wird daher eine Benutzeroberfläche für das Alignmentsystem FiLiPo präsentiert, welche die Daten von FiLiPo für Anwender grafisch aufbereitet. Die Benutzeroberfläche soll es Anwendern ermöglichen, die von FiLiPo erzeugten Alignments zu verstehen, zu analysieren und gegebenenfalls zu verändern oder zu entfernen.

[BA] Interaktive Exploration von RDF-Datensätzen mittels FCA

Abstract: Im Rahmen des Semantic Web können Informationen (Wissen) in sogenannten Wissensgraphen festgehalten werden. Diese können jedoch schnell zu einer unüberschaubaren Größe anwachsen, sodass sowohl der Inhalt als auch der Aufbau des Graphen für Menschen nur noch schwer nachzuvollziehen ist. Deswegen ist es notwendig, Wege zu finden, mit denen ein grundlegendes Verständnis über die Eigenschaften von Wissensgraphen geschaffen werden kann.

Ziel dieser Arbeit besteht darin, "Wissen über Wissensgraphen" automatisiert mittels dem mathematischen Modell der Formal Concept Analysis (FCA) zu ermitteln und dem Nutzer zu präsentieren. Daher wurde ein interaktives Tool entwickelt, mit dem ein Nutzer die Exploration von Wissensgraphen durchführen und selbst steuern kann.

Um die Wirkungsweise des Tools zu bestätigen, wurde dieses von einigen Personen getestet und anschließend bewertet. Die Testpersonen schätzten die User Experience und Usability des Tools als überwiegend positiv ein. Die als weniger gut bewerteten Aspekte bieten Anhaltspunkte für zukünftige Verbesserungen und Optimierungen, um die Nutzung des Tools noch attraktiver zu gestalten.

[BA] Development of a User Interface for Relation Alignment of RDF Knowledge Bases and Web APIs using the FiLiPo Framework

Abstract: In this final thesis the user interface for the FiLiPo system is presented. The development of such user interface requires a further study of problems and risks, the drafting of a concept and its implementation. One of the main goals was to develop an intuitive user interface that allows to use all the functionalities of the FiLiPo system. The thesis provides with the short introduction into schema alignment of RDF based knowledge bases and Web APIs. It also gives short information about the Angular framework that was used for the implementation. After describing the main requirements that have to be taken into consideration and giving answers on how to implement an intuitive user interface, the main concept is presented. It is based on already known solutions and examples, but still requires some creativity for the visualization of the alignment results. Then the implementation is documented. Using the Angular allows a quick integration of different components and their easy manipulation. The results of the user evaluation are presented that show if the concept and implementation were successful or not. In the end, we discuss on the further possible improvements.

Abgeschlossene Masterarbeiten

[MA] Natural Language Processing in Accounting

Abstract: This thesis offers an approach to detect booking duplicates by calculating sentence similarity as an application of Natural Language Processing. These bookings are exports of an accounting software. Among lots of other information, each booking has a booking note which is a short text written by the person who created the booking in the accounting software. The presented approach is part of a larger project in which all booking information is analyzed but in this thesis, solely the textual information of the notes is used for determining the similarity of two bookings. Several models are used for calculating the similarity of booking pairs and their results are compared. One important research objective is the comparison of the TFIDF as an application of the vector space model and language models as BERT and sentenceBERT which are using word and sentence embedding vectors. The best models achieve a F1-score of 0.6004 and an AUC-score of 0.555. Thorough analysis of True Positives, False Positives and False Negatives shows that embedding vectors not only offer advantages but other challenges are a consequence of using word embedding vectors when short texts are analyzed.

Keywords: Natural Language Processing - Duplicate Detection - Accounting - Short Texts

[MA] Automatic Fake News Detection on Tweets

 - kein Abstract verfügbar -

[MA] Validierung von Expertenaussagen und quantitativen Argumenten

 - kein Abstract verfügbar -

[MA] Emotion Analysis of COVID-19 related Tweets

 - kein Abstract verfügbar -

[MA] Leyk: A Paper Recommendation System on bibliographic meta data

 - kein Abstract verfügbar -

[MA] Bilingual Argumentative Discourse Unit Detection for Argument Mining on French and German Proceedings of the European Parliament

Abstract: Argumentation Mining aims at automatically extracting structured arguments from unstructured textual documents. This work addresses the conduction of a cross-lingual argumentation mining task, the detection of argumentative discourse units (ADU)s. Our contribution is two-fold: firstly, we extract a German and French ADU-annotated parallel corpus for further research, secondly, we thereupon compare five state-of-the-art language models (LM)s. Following the CRISP-DM framework for data mining, we prepare the data from the popular Europarl corpus by conducting a topic modeling to semantically trim corpus size. On the French and German subcorpus, annotations are made, distinguishing between the labels “non-argumentative”, “claim” and “premise”. Given the human baseline, in the modeling phase, the five LMs German BERT, German DistilBERT, CamemBERT, mBERT and mDistilBERT are compared on the sentence classification task. The task is performed by the LMs with moderate success. There is a performance difference between German and French models, leading to the insight that considering the input language as a feature and not only a parameter is crucial. Other than that, the beneficial influence of multilingual pretraining is discussed, triggering a need for further research.

[MA] Generierung von Vorschlägen für Gutachter von wissenschaftlichen Publikationen

Abstract: Aufgrund der zunehmenden Publikationsflut spielt die Qualitätssicherung von wissenschaftlichen Arbeiten eine immer größere Rolle. Eine der wichtigsten Methoden zur Qualitätssicherung wissenschaftlicher Arbeiten ist das sogenannte Peer-Review Verfahren. In diesem Zusammenhang ist der Prozess zur Auswahl eines geeigneten Reviewers zur Begutachtung des eingereichten Manuskripts von großer Wichtigkeit. Dieser Prozess ist jedoch aufwendig und führt bei inkorrekter Umsetzung zu schlechten Gutachten. Daher ist das Ziel dieser Arbeit, den zuvor beschriebenen Zuweisungsprozess effizienter und zugleich objektiver zu gestalten. Dies soll durch eine Automatisierung des Zuweisungsprozesses erreicht werden. Dazu wurde einerseits ein Reviewer Recommendation System entwickelt und andererseits ein Klassifikationssystem bereitgestellt. Das Reviewer Recommendation System erhält als Eingabe eine Anfrage in Form einer Publikation und schlägt dazu eine bestimmte Anzahl an passenden Reviewern vor. Im Gegensatz dazu erhält das Klassifikationssystem als Eingabe einen Reviewer sowie ein Manuskript und sagt voraus, ob der gegebene Reviewer relevant für das jeweilige Manuskript ist oder nicht. Bei der Erstellung dieser Systeme wurden zudem die Auswirkungen verschiedener Kombinationen von Dokumentrepräsentationen, Ähnlichkeitsmaßen, Hebeln und Voting-Techniken analysiert. Die Ergebnisse dieser Arbeit zeigen, dass beide Systeme im Rahmen ihrer Anwendungsfälle den Zuweisungsprozess im Peer-Review Verfahren unterstützen können. Des Weiteren zeigt die Evaluation des RR-Systems, dass das tf·idf-Verfahren in Kombination mit dem Kosinusmaß die besten Ergebnisse liefert. Als performanteste Voting-Techniken konnten CombSUM TOP 5, CombSUM TOP 10 und Reciprocal Rank identifiziert werden. Die Evaluation der Klassifikatoren führte zu dem Ergebnis, dass der SciBERT-Klassifikator eine Klassifikationsgenauigkeit von 80,2 % erreicht und somit am besten performt.

[MA] Methoden zum Auflösen von Referenzen in Argumentstrukturen in deutscher Sprache

Abstract: Diese Arbeit befasst sich mit der Untersuchung von Systemen, welche Named Entities (NE) und Referenzen in der deutschen Sprache erkennen sollen. Die Bestimmung von NE ist in mehreren Punkten wichtig, zum einen können dadurch zusätzliche Informationen aus einer externen Quelle in einen Text eingebettet werden, beispielsweise das Amt eines Politikers. Zum anderen spielen sie eine Rolle beim Erkennen von Referenzen, wie beispielsweise dem Auflösen von Personalpronomen. Die Auflösung von Referenzen ist hilfreich, wenn lediglich ein Ausschnitt eines Textes einem System am Ende zur Verfügung steht. Um dessen Performanz zu erhöhen, ist es von Vorteil, wenn in diesem Ausschnitt sämtliche Referenzen korrekt aufgelöst worden sind. Ein Beispiel hierfür ist das ReCAP-Projekt, welches Anfragen zu einer Behauptung verarbeitet und isolierte Knoten, welche Thesen enthalten, für oder gegen diese Behauptung zurückliefert.

Daher wird in dieser Arbeit zuerst ein Korpus aus zwölf deutschen Texten mit bildungspolitischem Inhalt hinsichtlich der in ihr enthaltenen NE und Referenzen erarbeitet. Anschließend werden drei NE-Systeme, sowie zwei Coreference Resolution Systeme auf diesen zwölf Texten bewertet. Die Bewertung dieser Systeme ist ein aufwändiger Prozess, der nur zu einem gewissen Teil automatisierbar ist. Dies liegt vor allem daran, dass der Goldstandard in einer Art und Weise annotiert wurde, so dass eine Entität den maximalen Informationsgehalt besitzt. Systeme erkennen häufig jedoch lediglich einen Teilstring, in solchen Fällen ist eine händische Auswertung unumgänglich.

Entsprechend ist ebenfalls der abschließende Vergleich unter den Systemen nicht trivial. Bei der Erkennung von NE wurde zwischen den exakten Treffern und den teilweisen Treffern zwischen einem Kandidatensystem und dem Goldstandard unterschieden. Bei den exakten Treffern liegt der Stanford Named Entity Recognizer (NER) mit einem F1-Score von 57,67 % bzw. 54,44 %, abhängig von der Art und Weise, wie die Resultate der unterschiedlichen Texte im Mittel berechnet werden, vorne. Unter der Berücksichtigung von teilweisen Treffern belegt FLAIR den ersten Platz mit einem F1-Score von 72,63 % bzw. 67,44 %. Es wäre jedoch zu einfach, sich bei den Resultaten lediglich auf den F1-Score zu beschränken, die Systeme haben unterschiedliche Stärken und Schwächen, wie zum Beispiel der Erkennung von Personen. In dieser Kategorie schneidet der Stanford NER nämlich am schlechtesten ab.

Im Gegensatz zur Named Entity Recognition schneiden die Resultate der Coreference Resolution schwach ab. CorZu erreicht maximal einen F1-Score von 27,4 % und IMS HotCoref DE einen Wert von 29,1 %. Die Systeme bilden viele Referenzen, die keinen Gewinn darstellen, zum Beispiel { die Schüler - die Schüler}. Wenn diese ignoriert werden, steigt die Precision im besten Fall von 22,86 % auf 41,86 %.

Eine abschließende Untersuchung auf isolierten Textstellen im ReCAP-Projekt, in welcher im Laufe des Projektes manuell eine Auflösung von Referenzen durchgeführt wurde, zeigt, dass diese Werte unzureichend für einen Einsatz in der Praxis sind.

[MA] Automatische Auswahl von thematisch passenden Publikationen zur Indexierung in einer fachspezifischen bibliografischen Datenbank

- kein Abstract verfügbar -

[MA] A Web-Interface for Exploration and Visualization of Bibliographic Metadata

Abstract: There are many systems for the exploration of bibliographic metadata. However, retrieving and filtering information that is actually relevant often requires complicated search interfaces and long search paths, especially for complex information needs. In this work a web interface for the exploration and visualization of bibliographic metadata is proposed. The core idea is based on a Domain Specific Query Language (DSQL) called SchenQL which aims to be easy to learn and intuitive for domain experts as well as casual users for efficiently retrieving information on bibliographic metadata. This is achieved by using natural sounding keywords and specially designed functions for this particular domain. In addition, the web interface implements useful visualizations of citations and references or co-author relationships. The interface also offers keyword suggestions and an auto completion feature that allows for easily creating SchenQL queries, without having to learn all the keywords of the language beforehand. A three-part user study with 10 students and employees from the field of computer science was conducted where the effectiveness and usability of the SchenQL web interface was evaluated.

[MA] Implementation of an Auto-Test Framework based on Web Technology for Desktop Applications

- kein Abstract verfügbar -