Abschlussarbeiten in Data Science

Abschlussarbeiten in Data Science werden zweimal im Jahr durch den Prüfungsausschuss in einem zentralen Verfahren vergeben. Außerhalb dieses Prozesses können wir nur in seltenen Ausnahmefällen Themen vergeben.

Externe Abschlussarbeiten betreuen wir nur in Ausnahmefällen, falls die Aufgabenstellung gut zu den Forschungsthemen der Professur passt. Fragen Sie dazu bitte gezielt bei Prof. Schenkel nach, wenn Sie einen Vorschlag für ein Masterarbeitsthema haben, dass Sie außerhalb der Universität bearbeiten wollen.

Beispiele für in unserer Arbeitsgruppe abgeschlossene Masterarbeiten in Data Science

[MA] Automatische Auswahl von thematisch passenden Publikationen zur Indexierung in einer fachspezifischen bibliografischen Datenbank

- kein Abstract verfügbar -

[MA] A Web-Interface for Exploration and Visualization of Bibliographic Metadata

Abstract: There are many systems for the exploration of bibliographic metadata. However, retrieving and filtering information that is actually relevant often requires complicated search interfaces and long search paths, especially for complex information needs. In this work a web interface for the exploration and visualization of bibliographic metadata is proposed. The core idea is based on a Domain Specific Query Language (DSQL) called SchenQL which aims to be easy to learn and intuitive for domain experts as well as casual users for efficiently retrieving information on bibliographic metadata. This is achieved by using natural sounding keywords and specially designed functions for this particular domain. In addition, the web interface implements useful visualizations of citations and references or co-author relationships. The interface also offers keyword suggestions and an auto completion feature that allows for easily creating SchenQL queries, without having to learn all the keywords of the language beforehand. A three-part user study with 10 students and employees from the field of computer science was conducted where the effectiveness and usability of the SchenQL web interface was evaluated.

[BA] Vergleich von kontexualisierten Embedding-Methoden zur Ähnlichkeitsbestimmung von Aussagen

- kein Abstract verfügbar -

[BA] Feature Evaluation of Citation Distance Networks: Exploring new ways of measuring Scientific Impact

Abstract: This thesis introduces improvements to current approaches of classifying scientific work by observing the semantic similarity of publications in the same citation neighborhood. Available patterns in the neighborhood structures are used to generate an initial set of features. Different text representations, similarity measures and feature modes are implemented and studied to explore new approaches of generating meaningful features that improve classification procedures. Features are evaluated in terms of their predictive power when learning a model that distinguishes between seminal and survey publications. Learning patterns from features to better distinguish between the publications will be a proxy of the effectiveness of these features in evaluating research impact. The state-of-the-art research in this area achieved a result of 68.97% prediction accuracy whereas the approaches presented in this thesis achieved a prediction accuracy of up to 86.98% and therefore beat the latest results by a large margin. Thorough evaluation of the feature sets reveals which relationships in a neighborhood structure provide information that can help improve current research evaluation metrics by identifying high impact scientific work.

Keywords: Semantometrics - Feature Engineering - Natural Language Processing

[BA] Lernen des Interfaces von Web-APIs

Von Web-APIs lassen sich alle möglichen Informationen abrufen, zum Beispiel Metadaten von Publikationen. Jedoch ist nicht immer ersichtlich, welche Art von Daten an die Web-API gesendet werden muss, um eine sinnvolle Antwort zu erhalten. Für diese Problematik wurde ein Programm entwickelt, welches mithilfe einer Ausgangsdatenbank die passenden Übergabeparameter von Web-APIs lernt. Dazu wird jede Art von Daten der Ausgangsdatenbank an die Web-API gesendet und es wird überprüft, ob die Antwort der API zu den gesendeten Daten in einem Zusammenhang steht. Mit verschiedenen Parametern kann konfiguriert werden, wie stark die Antworten der Web-API mit den Daten der Ausgangsdatenbank übereinstimmen müssen, um als sinnvoll zu gelten. Dazu wurden mehrere Metriken zur Berechnung von Stringähnlichkeiten verwendet, um die Übereinstimmungen beider Datenmengen zu finden. Durch eine geeignete Evaluation konnte gezeigt werden, dass mit guten Konfigurationsparametern alle Übereinstimmungen gefunden werden. Im vorgestellten System hat ein Benutzer zudem die Möglichkeit verschiedene Metriken zum Vergleich der Ähnlichkeit zweier Werte zu wählen. So kann beispielsweise angegeben werden, dass zwischen manchen Daten eine genaue Übereinstimmung vorliegen muss, wie zum Beispiel bei ISBNs oder anderen IDs. Mit den richtigen Konfigurationsparametern, sowie der Kenntnis und der Angabe, welche Metrik für welche Datenart am besten geeignet ist, können fast alle Daten als Match erkannt werden, die auch ein Mensch als Match ansehen würde.

[BA] Zählerstände-App

- kein Abstract verfügbar -