Abschlussarbeiten in Data Science
Abschlussarbeiten in Data Science werden zweimal im Jahr durch den Prüfungsausschuss in einem zentralen Verfahren vergeben. Außerhalb dieses Prozesses können wir nur in seltenen Ausnahmefällen Themen vergeben.
Externe Abschlussarbeiten betreuen wir nur in Ausnahmefällen, falls die Aufgabenstellung gut zu den Forschungsthemen der Professur passt. Fragen Sie dazu bitte gezielt bei Prof. Schenkel nach, wenn Sie einen Vorschlag für ein Masterarbeitsthema haben, dass Sie außerhalb der Universität bearbeiten wollen.
Beispiele für in unserer Arbeitsgruppe abgeschlossene Masterarbeiten in Data Science
- kein Abstract verfügbar -
- kein Abstract verfügbar -
Die Beschaffung und Integration von Daten einer Web-API ist ein essenzieller Prozess zur Pflege von Wissensbasen in Form von RDF-Datenbanken. Bevor die Datenintegration erfolgen kann, muss zunächst eine Abbildung der Daten der RDF-Datenbank und den Antworten einer Web-API erfolgen, ein sogenanntes Alignment. Die automatisierte Generierung solcher Alignments wird von Alignment Systemen übernommen. Die Entwicklung dieser ist zeitaufwendig und bedarf eines ständigen erstellen und vergleichen von generierten Alignments gegenüber einem idealen Alignment, dem Goldstand. Dessen Erstellung ist ein aufwendiger Prozess, der nur von Experten und in der Regel manuell ausgeführt wird. Um die Entwickler solcher Systeme zu unterstützen, wird in dieser Arbeit die neue Komponente Goldstandard-Builder fur das Benchmarksystem ETARA präsentiert. Diese automatisierten einzelne Schritte des Prozesses zur Erstellung eines Goldstandards und reduziert damit den benötigten Zeitaufwand. Weiter wurde das System ETARA um eine Benutzeroberfläche erweitert um den Zugang zum System zu vereinfachen
Politics and Linguistics have an inextricable affinity. A wide array of evidence suggests that latent ideological nuances are ingrained within the language of political discourse. Over the last decade, uncovering and leveraging patterns in language data has become one of the most outstanding achievements of modern Data Science, which raises some noteworthy questions regarding its prospects within the political landscape.
This paper will examine how the relationship between Politics and Linguistics can be approached in Data Science. I will explore the abilities and limitations of contemporary concepts and state-of-the-art instruments in Natural Language Processing, Machine Learning, and Information Retrieval to address questions inspired by political linguistics, and, more specifically, to classify political claims in terms of their ideology with the help of political party programs in the context of an election process. The connections between Linguistics, Ideology and Data Science are interesting in their own right, but may also be of paramount importance for practical applications. Leveraging political linguistics could have profound implications for research on political behavior, and enable a more accessible way of understanding political agendas, revealing antagonistic lexical structures that arise from a set of political parties competing for attention and support in the context of an election.
Abstract: Datenintegration von RDF Wissensbasen ist eine wichtige Aufgabe, die eine immer größere Rolle spielt. Durch die Verwendung vieler verschiedener Datenquellen ist es möglich, den Datenbestand einer Wissensbasis zu erweitern oder gegebenenfalls fehlerhafte Informationen in der Wissensbasis zu korrigieren. Für diesen Zweck werden immer öfters Alignment-Systeme verwendet, welche das Schema einer Datenquelle mit dem einer anderen Datenquelle in einer solchen Weise in Beziehung setzen, sodass anschließend die Daten zwischen den Datenquellen übertragen werden können. Ein solches System ist FiLiPo (Finding Linkage Points). Es findet automatisch Abbildungen zwischen dem Schema einer lokalen RDF Wissensdatenbank und dem Schema einer Web API. Eine der aktuellen Herausforderungen bei solchen Systemen ist es, die Anwender mehr in den Prozess zu integrieren. Vor allem, wenn es darum geht, den Anwendern zu erläutern, wie und warum das System bestimmte Entscheidungen getroffen hat. In dieser Bachelorarbeit wird daher eine Benutzeroberfläche für das Alignmentsystem FiLiPo präsentiert, welche die Daten von FiLiPo für Anwender grafisch aufbereitet. Die Benutzeroberfläche soll es Anwendern ermöglichen, die von FiLiPo erzeugten Alignments zu verstehen, zu analysieren und gegebenenfalls zu verändern oder zu entfernen.
Abstract: Im Rahmen des Semantic Web können Informationen (Wissen) in sogenannten Wissensgraphen festgehalten werden. Diese können jedoch schnell zu einer unüberschaubaren Größe anwachsen, sodass sowohl der Inhalt als auch der Aufbau des Graphen für Menschen nur noch schwer nachzuvollziehen ist. Deswegen ist es notwendig, Wege zu finden, mit denen ein grundlegendes Verständnis über die Eigenschaften von Wissensgraphen geschaffen werden kann.
Ziel dieser Arbeit besteht darin, "Wissen über Wissensgraphen" automatisiert mittels dem mathematischen Modell der Formal Concept Analysis (FCA) zu ermitteln und dem Nutzer zu präsentieren. Daher wurde ein interaktives Tool entwickelt, mit dem ein Nutzer die Exploration von Wissensgraphen durchführen und selbst steuern kann.
Um die Wirkungsweise des Tools zu bestätigen, wurde dieses von einigen Personen getestet und anschließend bewertet. Die Testpersonen schätzten die User Experience und Usability des Tools als überwiegend positiv ein. Die als weniger gut bewerteten Aspekte bieten Anhaltspunkte für zukünftige Verbesserungen und Optimierungen, um die Nutzung des Tools noch attraktiver zu gestalten.
Abstract: In this final thesis the user interface for the FiLiPo system is presented. The development of such user interface requires a further study of problems and risks, the drafting of a concept and its implementation. One of the main goals was to develop an intuitive user interface that allows to use all the functionalities of the FiLiPo system. The thesis provides with the short introduction into schema alignment of RDF based knowledge bases and Web APIs. It also gives short information about the Angular framework that was used for the implementation. After describing the main requirements that have to be taken into consideration and giving answers on how to implement an intuitive user interface, the main concept is presented. It is based on already known solutions and examples, but still requires some creativity for the visualization of the alignment results. Then the implementation is documented. Using the Angular allows a quick integration of different components and their easy manipulation. The results of the user evaluation are presented that show if the concept and implementation were successful or not. In the end, we discuss on the further possible improvements.
- kein Abstract verfügbar -
Abstract: Datenbanken dienen der Speicherung von Informationen und somit ist es essentiell, dass diese vollständig sind. In der Realität weisen Datenbanken jedoch Lücken auf und daher müssen Methoden genutzt werden, die diese fehlende Informationen ergänzen. Existierende Linked Data Systeme nutzen dazu Schnittstellen (SPARQL-Endpunkte), die nicht von allen Datenanbietern bereitgestellt werden. Die gängige Lösung in der Praxis ist es, eine Web API zu Verfügung zu stellen, um dennoch Informationen anfragen zu können. Um fehlende Informationen über Web APIs ergänzen zu können, wird in dieser Arbeit ein Programm implementiert, dass die Verbindung von Linked Data Systemen und Web APIs ermöglicht. Somit kann das in dieser Arbeit entwickelte Programm ExtendedSPARQL eine Anfrage an die lokale Knowledge Base vollständig beantworten, indem es fehlende Informationen, mithilfe externer Web APIs, on-the-fly ergänzt. Dabei entscheidet das Programm, welche externe Web APIs relevant für fehlende Informationen sind und wie die externen Web APIs anzufragen sind. Weiter wird entschieden, wie die gesuchten Informationen aus Web API-Antworten zu extrahieren sind und wie diese den Resultaten der Anfrage hinzugefügt werden. Ferner führt ExtendedSPARQL, so wenige Web API-Anfragen wie möglich aus, sodass fehlende Informationen mit dem geringsten Aufwand hinzugefügt werden und redundante Informationen vermieden werden. Zudem ist das Programm einfach zu bedienen, sodass auch Nutzer mit nur grundlegenden SPARQL-Kentnissen erfolgreich ExtendedSPARQL-Anfragen durchführen können. Auch stellt ExtendedSPARQL eine grafische Benutzeroberfläche zur Verfügung, wodurch die Bedienbarkeit nochmals vereinfacht wird. In einer anschließenden Evaluation konnte das Programm unter Beweis stellen, dass fehlende Informationen erfolgreich anhand externer Web APIs hinzugefügt werden können und das redundante Resultate nur selten auftreten.
Abstract: Researchers are normally not familiar with the thematic orientation of all journals and conferences in their field of research. As soon as researchers want to publish their work, they face the problem of finding a suitable journal or conference where they want to submit the paper. The aim of this thesis is the development of a recommender system, which can find suitable ones in respect of a given title of a publication. The system is based on data from dblp and Semantic Scholar, which contain titles of publications as well as their abstracts and keywords. Different methods for determining the similarity and relevance of papers were investigated. These include Tf/idf, BM25 and cosine similarity in conjunction with Doc2Vec. Various techniques were analysed in order to find and rank the journals and conferences associated with the corresponding papers. In addition, methods were developed to improve the results of the recommender system, such as looking at the number of citations from journals and conferences. The methods were evaluated automatically and manually. It turned out that cosine similarity with Doc2Vec did not achieve good results in contrast to the other two methods. To improve the usability of the recommender system, a visualisation in form of a web service was implemented.
Seit der Entwicklung des Semantic Web durch Tim Berners-Lee werden immer mehr Informationen im Internet als Linked Open Data veröffentlicht. Diese sind speziell darauf ausgelegt, von Maschinen ausgewertet werden zu können. Alle Elemente erhalten eindeutige Identifkatoren. Anschließend können die Elemente über Relationen miteinander verknüpft werden und bilden immer größere Netze. Ergebnis ist ein "Giant Global Graph", in dem sämtliche Dinge von Interesse referenziert werden können.
Doch während die Datenmenge im SemanticWeb ständig wächst, können sie nur von wenigen genutzt werden. Die Suche nach Informationen gestaltet sich schwierig, da der Nutzer einige Vorkenntnisse benötigt. Einerseits muss er wissen, wie die Daten im Graphen miteinander verbunden sind und wie sie bezeichnet werden. Andererseits benötigt er Kenntnis über die Anfragesprache SPARQL, mit der sich Anfragen an Datenquellen im Semantic Web stellen lassen. Die in dieser Arbeit entwickelte visuelle Anfragesprache erleichtert dem Nutzer den Einsteig und ermöglicht es damit auch Laien, das Sematic Web nach Informationen zu durchsuchen. Anstelle einer schriftlich ausformulierten Anfrage baut der Nutzer sich grafisch eine Anfrage aus vorgefertigten Elementen zusammen. Dafür wurde in dieser Arbeit das Programm Visual Query Builder entwickelt, das eine solche visuelle Anfragesprache implementiert. Durch die Angabe eines Schemas zum jeweiligen Datenendpunkt werden dem Nutzer die Elemente vorgegeben, die er verwenden kann. Somit kann der Nutzer erkennen, welche Elemente es überhaupt gibt und welche Attribute sie besitzen. Das in dieser Arbeit entwickelte Programm und die zu Grunde liegende visuelle Anfragesprache wurden anschließend von einer Gruppe Testpersonen evaluiert. Dabei konnte Visual Query Builder unter Beweis stellen, das es sowohl Anfängern als auch fortgeschrittenen Anwendern ermöglicht, eine Datenquelle im Semantic Web erfolgreich nach gewünschten Informationen zu durchsuchen. In der Evaluation wurde besonders auf die Bedienbarkeit der Anwendung geachtet. Dabei ergab die Auswertung, dass die Anwendung in beiden verwendeten Testverfahren gute Ergebnisse erzielte und ihre Effektivität unter Beweis stellen konnte.
Digitale Bibliotheken, wie zum Beispiel die dblp oder die Deutsche Nationalbibliothek (DNB), haben das ZielWissen online zusammenzuführen und über das Internet verfügbar zu machen. Leider gehören unvollständige Datensätze zum Alltag einer digitalen Bibliothek. Dabei könnten fehlende Informationen, wie zum Beispiel Titel oder Autorennamen, durch externeWeb-APIs ergänzt werden. Das Hauptproblem dabei ist die Integration der externen Daten in die lokale Datenbank, da erst ein gemeinsames Schema, welches dazu dient die Struktur der Daten zu beschreiben, gefunden werden muss. Dies ist die Hauptaufgabe der Schemaintegration, welche ein Teilgebiet der Informationsintegration und Datenmigration ist. Das in dieser Arbeit konzipierte Programm ActiveSPARQL nutzt die Schemaintegration aus, um Daten vonWeb-APIs zur Beantwortung von Anfragen on-the-fly zu benutzen. Stellt ein Nutzer eine Anfrage an die Anwendung, so sollen sowohl die Daten der lokalen Datenbank als auch der externenWeb-APIs verwendet werden, um diese zufriedenstellend beantworten zu können. Das Benutzen beider Quellen wird als hybride Anfrage bezeichnet. Der Entwurf orientiert sich dabei an dem bereits vorhandenen Framework ANGIE. Im Unterschied zu diesem wird keine Hülle zum Beantworten der Anfrage erzeugt, sondern eine erweiterte SPARQL-Anfrage. Außerdem setzt ANGIE voraus, dass die Zugriffsmethoden der Web-APIs von Hand deklariert werden müssen. Dieser Schritt kann durch das Programm AID4SPARQL automatisiert werden. Dieses ist in der Lage Linkage Points zwischen den lokalen und externen Daten zu finden und so sicherzustellen, dass externe Informationen kompatibel zu den lokalen Daten sind. Die Ergebnisse aus AID4SPARQL werden so aufbereitet, dass sie als Konfiguration für die Kommunikation mitWeb-APIs genutzt werden kann. Zusätzlich zu ActiveSPARQL wurde eineWeboberfläche konzipiert, die es Laien ermöglichen soll ohne Vorwissen hybride Anfragen erstellen und ausführen zu können. Abschließend wird ein Konzept zur Evaluation des Frameworks vorgestellt, welches dazu verwendet werden kann, um ANGIE und ActiveSPARQL zu vergleichen.
- kein Abstract verfügbar -
Abstract: This thesis introduces improvements to current approaches of classifying scientific work by observing the semantic similarity of publications in the same citation neighborhood. Available patterns in the neighborhood structures are used to generate an initial set of features. Different text representations, similarity measures and feature modes are implemented and studied to explore new approaches of generating meaningful features that improve classification procedures. Features are evaluated in terms of their predictive power when learning a model that distinguishes between seminal and survey publications. Learning patterns from features to better distinguish between the publications will be a proxy of the effectiveness of these features in evaluating research impact. The state-of-the-art research in this area achieved a result of 68.97% prediction accuracy whereas the approaches presented in this thesis achieved a prediction accuracy of up to 86.98% and therefore beat the latest results by a large margin. Thorough evaluation of the feature sets reveals which relationships in a neighborhood structure provide information that can help improve current research evaluation metrics by identifying high impact scientific work.
Keywords: Semantometrics - Feature Engineering - Natural Language Processing
Von Web-APIs lassen sich alle möglichen Informationen abrufen, zum Beispiel Metadaten von Publikationen. Jedoch ist nicht immer ersichtlich, welche Art von Daten an die Web-API gesendet werden muss, um eine sinnvolle Antwort zu erhalten. Für diese Problematik wurde ein Programm entwickelt, welches mithilfe einer Ausgangsdatenbank die passenden Übergabeparameter von Web-APIs lernt. Dazu wird jede Art von Daten der Ausgangsdatenbank an die Web-API gesendet und es wird überprüft, ob die Antwort der API zu den gesendeten Daten in einem Zusammenhang steht. Mit verschiedenen Parametern kann konfiguriert werden, wie stark die Antworten der Web-API mit den Daten der Ausgangsdatenbank übereinstimmen müssen, um als sinnvoll zu gelten. Dazu wurden mehrere Metriken zur Berechnung von Stringähnlichkeiten verwendet, um die Übereinstimmungen beider Datenmengen zu finden. Durch eine geeignete Evaluation konnte gezeigt werden, dass mit guten Konfigurationsparametern alle Übereinstimmungen gefunden werden. Im vorgestellten System hat ein Benutzer zudem die Möglichkeit verschiedene Metriken zum Vergleich der Ähnlichkeit zweier Werte zu wählen. So kann beispielsweise angegeben werden, dass zwischen manchen Daten eine genaue Übereinstimmung vorliegen muss, wie zum Beispiel bei ISBNs oder anderen IDs. Mit den richtigen Konfigurationsparametern, sowie der Kenntnis und der Angabe, welche Metrik für welche Datenart am besten geeignet ist, können fast alle Daten als Match erkannt werden, die auch ein Mensch als Match ansehen würde.
- kein Abstract verfügbar -
- kein Abstract verfügbar -
- kein Abstract verfügbar -
- kein Abstract verfügbar -
- kein Abstract verfügbar -
- kein Abstract verfügbar -
- kein Abstract verfügbar -
- kein Abstract verfügbar -
- kein Abstract verfügbar -