Bachelor- und Masterarbeiten
Bachelor- und Masterarbeiten in Informatik und Wirtschaftsinformatik können auf Deutsch oder nach Absprache auch auf Englisch verfasst werden.
Themen
Generell bieten wir Themen aus den Bereichen Datenbanken, Information Retrieval und semantische Informationssysteme. Genauer gehören unsere Themen vorwiegend einem oder mehreren der Bereiche Suche in semistrukturierten Daten, Integration heterogener Informationsquellen, Effizienz großer Suchmaschinen, Conversational Information Retrieval, Natural Language Processing, Human Computer Interaction, Datenintegration, Query Processing, Semantic Web, Computational Argumentation (Ranking, Clustering, Validierung und Extraktion von Argumenten aus natürlichsprachlichen Texten), wissenschaftliche Empfehlungssysteme, domänenspezifische Anfragesprachen und Scientometrics an.
Das Thema einer Arbeit bestimmt, welche Person die Arbeit betreut. Die thematischen Schwerpunkte der Betreuenden finden sich auf deren persönlichen Seite unter Team.
Falls Sie Interesse an einem Thema haben, welches vom Lehrstuhl vorgeschlagen wird oder falls Sie einen eigenen Themenvorschlag für eine Bachelor- oder Masterarbeit haben, kontaktieren Sie bitte Prof. Dr. Ralf Schenkel. Falls Sie bereits mit einem Mitarbeiter oder einer Mitarbeiterin des Lehrstuhls über ein mögliches Thema gesprochen haben, geben Sie dies bitte ebenfalls in Ihrer Mail mit an. Studierende der Wirtschaftsinformatik beachten bitte, dass in der Regel der Zweitprüfer der Arbeit aus der Wirtschaftsinformatik kommen soll. Ebenso ist in diesem Fall vor Anmeldung der Arbeit ein Exposé anzufertigen, dass auch mit dem Zweitprüfer abgestimmt werden muss.
Externe Abschlussarbeiten betreuen wir nur in Ausnahmefällen, falls die Aufgabenstellung gut zu den Forschungsthemen der Professur passt. Fragen Sie dazu bitte gezielt bei Prof. Schenkel nach, wenn Sie einen Vorschlag für ein Masterarbeitsthema haben, dass Sie außerhalb der Universität bearbeiten wollen.
Voraussetzungen
Bitte senden Sie uns eine Liste Ihrer erfolgreich abgeschlossenen Module bei Ihrer Anfrage nach einer Abschlussarbeit mit. Diese Übersicht hilft uns einzuschätzen, welches mögliche Thema zu Ihren Kenntnissen passen könnte.
Für eine Bachelorarbeit erwarten wir, dass Sie (soweit in Ihrem Modulplan als Pflichtmodul enthalten) bereits folgende Module erfolgreich abgeschlossen haben, bevor Sie sich um ein Thema bei uns bemühen, da die Kenntnisse für den erfolgreichen Abschluss einer Bachelorarbeit in unseren Themen sehr hilfreich sind: Datenbanksysteme, Nichtrelationale Informationssysteme, Informatik-Projekt (Großes Studienprojekt), Fortgeschrittene Programmierung (Programmierung II).
Für eine Masterarbeit erwarten wir, dass Sie einschlägige Mastervorlesungen der Professur im Bereich Datenbanksysteme oder Information Retrieval besucht haben. Idealerweise sollten Sie auch Ihr Forschungsprojekt bereits an der Professur gemacht haben.
Abgeschlossene Bachelorarbeiten
- kein Abstract verfügbar -
- kein Abstract verfügbar -
Die Beschaffung und Integration von Daten einer Web-API ist ein essenzieller Prozess zur Pflege von Wissensbasen in Form von RDF-Datenbanken. Bevor die Datenintegration erfolgen kann, muss zunächst eine Abbildung der Daten der RDF-Datenbank und den Antworten einer Web-API erfolgen, ein sogenanntes Alignment. Die automatisierte Generierung solcher Alignments wird von Alignment Systemen übernommen. Die Entwicklung dieser ist zeitaufwendig und bedarf eines ständigen erstellen und vergleichen von generierten Alignments gegenüber einem idealen Alignment, dem Goldstand. Dessen Erstellung ist ein aufwendiger Prozess, der nur von Experten und in der Regel manuell ausgeführt wird. Um die Entwickler solcher Systeme zu unterstützen, wird in dieser Arbeit die neue Komponente Goldstandard-Builder fur das Benchmarksystem ETARA präsentiert. Diese automatisierten einzelne Schritte des Prozesses zur Erstellung eines Goldstandards und reduziert damit den benötigten Zeitaufwand. Weiter wurde das System ETARA um eine Benutzeroberfläche erweitert um den Zugang zum System zu vereinfachen
Politics and Linguistics have an inextricable affinity. A wide array of evidence suggests that latent ideological nuances are ingrained within the language of political discourse. Over the last decade, uncovering and leveraging patterns in language data has become one of the most outstanding achievements of modern Data Science, which raises some noteworthy questions regarding its prospects within the political landscape.
This paper will examine how the relationship between Politics and Linguistics can be approached in Data Science. I will explore the abilities and limitations of contemporary concepts and state-of-the-art instruments in Natural Language Processing, Machine Learning, and Information Retrieval to address questions inspired by political linguistics, and, more specifically, to classify political claims in terms of their ideology with the help of political party programs in the context of an election process. The connections between Linguistics, Ideology and Data Science are interesting in their own right, but may also be of paramount importance for practical applications. Leveraging political linguistics could have profound implications for research on political behavior, and enable a more accessible way of understanding political agendas, revealing antagonistic lexical structures that arise from a set of political parties competing for attention and support in the context of an election.
Abstract: Datenintegration von RDF Wissensbasen ist eine wichtige Aufgabe, die eine immer größere Rolle spielt. Durch die Verwendung vieler verschiedener Datenquellen ist es möglich, den Datenbestand einer Wissensbasis zu erweitern oder gegebenenfalls fehlerhafte Informationen in der Wissensbasis zu korrigieren. Für diesen Zweck werden immer öfters Alignment-Systeme verwendet, welche das Schema einer Datenquelle mit dem einer anderen Datenquelle in einer solchen Weise in Beziehung setzen, sodass anschließend die Daten zwischen den Datenquellen übertragen werden können. Ein solches System ist FiLiPo (Finding Linkage Points). Es findet automatisch Abbildungen zwischen dem Schema einer lokalen RDF Wissensdatenbank und dem Schema einer Web API. Eine der aktuellen Herausforderungen bei solchen Systemen ist es, die Anwender mehr in den Prozess zu integrieren. Vor allem, wenn es darum geht, den Anwendern zu erläutern, wie und warum das System bestimmte Entscheidungen getroffen hat. In dieser Bachelorarbeit wird daher eine Benutzeroberfläche für das Alignmentsystem FiLiPo präsentiert, welche die Daten von FiLiPo für Anwender grafisch aufbereitet. Die Benutzeroberfläche soll es Anwendern ermöglichen, die von FiLiPo erzeugten Alignments zu verstehen, zu analysieren und gegebenenfalls zu verändern oder zu entfernen.
Abstract: Im Rahmen des Semantic Web können Informationen (Wissen) in sogenannten Wissensgraphen festgehalten werden. Diese können jedoch schnell zu einer unüberschaubaren Größe anwachsen, sodass sowohl der Inhalt als auch der Aufbau des Graphen für Menschen nur noch schwer nachzuvollziehen ist. Deswegen ist es notwendig, Wege zu finden, mit denen ein grundlegendes Verständnis über die Eigenschaften von Wissensgraphen geschaffen werden kann.
Ziel dieser Arbeit besteht darin, "Wissen über Wissensgraphen" automatisiert mittels dem mathematischen Modell der Formal Concept Analysis (FCA) zu ermitteln und dem Nutzer zu präsentieren. Daher wurde ein interaktives Tool entwickelt, mit dem ein Nutzer die Exploration von Wissensgraphen durchführen und selbst steuern kann.
Um die Wirkungsweise des Tools zu bestätigen, wurde dieses von einigen Personen getestet und anschließend bewertet. Die Testpersonen schätzten die User Experience und Usability des Tools als überwiegend positiv ein. Die als weniger gut bewerteten Aspekte bieten Anhaltspunkte für zukünftige Verbesserungen und Optimierungen, um die Nutzung des Tools noch attraktiver zu gestalten.
Abstract: In this final thesis the user interface for the FiLiPo system is presented. The development of such user interface requires a further study of problems and risks, the drafting of a concept and its implementation. One of the main goals was to develop an intuitive user interface that allows to use all the functionalities of the FiLiPo system. The thesis provides with the short introduction into schema alignment of RDF based knowledge bases and Web APIs. It also gives short information about the Angular framework that was used for the implementation. After describing the main requirements that have to be taken into consideration and giving answers on how to implement an intuitive user interface, the main concept is presented. It is based on already known solutions and examples, but still requires some creativity for the visualization of the alignment results. Then the implementation is documented. Using the Angular allows a quick integration of different components and their easy manipulation. The results of the user evaluation are presented that show if the concept and implementation were successful or not. In the end, we discuss on the further possible improvements.
- kein Abstract verfügbar -
Abstract: Datenbanken dienen der Speicherung von Informationen und somit ist es essentiell, dass diese vollständig sind. In der Realität weisen Datenbanken jedoch Lücken auf und daher müssen Methoden genutzt werden, die diese fehlende Informationen ergänzen. Existierende Linked Data Systeme nutzen dazu Schnittstellen (SPARQL-Endpunkte), die nicht von allen Datenanbietern bereitgestellt werden. Die gängige Lösung in der Praxis ist es, eine Web API zu Verfügung zu stellen, um dennoch Informationen anfragen zu können. Um fehlende Informationen über Web APIs ergänzen zu können, wird in dieser Arbeit ein Programm implementiert, dass die Verbindung von Linked Data Systemen und Web APIs ermöglicht. Somit kann das in dieser Arbeit entwickelte Programm ExtendedSPARQL eine Anfrage an die lokale Knowledge Base vollständig beantworten, indem es fehlende Informationen, mithilfe externer Web APIs, on-the-fly ergänzt. Dabei entscheidet das Programm, welche externe Web APIs relevant für fehlende Informationen sind und wie die externen Web APIs anzufragen sind. Weiter wird entschieden, wie die gesuchten Informationen aus Web API-Antworten zu extrahieren sind und wie diese den Resultaten der Anfrage hinzugefügt werden. Ferner führt ExtendedSPARQL, so wenige Web API-Anfragen wie möglich aus, sodass fehlende Informationen mit dem geringsten Aufwand hinzugefügt werden und redundante Informationen vermieden werden. Zudem ist das Programm einfach zu bedienen, sodass auch Nutzer mit nur grundlegenden SPARQL-Kentnissen erfolgreich ExtendedSPARQL-Anfragen durchführen können. Auch stellt ExtendedSPARQL eine grafische Benutzeroberfläche zur Verfügung, wodurch die Bedienbarkeit nochmals vereinfacht wird. In einer anschließenden Evaluation konnte das Programm unter Beweis stellen, dass fehlende Informationen erfolgreich anhand externer Web APIs hinzugefügt werden können und das redundante Resultate nur selten auftreten.
Abstract: Researchers are normally not familiar with the thematic orientation of all journals and conferences in their field of research. As soon as researchers want to publish their work, they face the problem of finding a suitable journal or conference where they want to submit the paper. The aim of this thesis is the development of a recommender system, which can find suitable ones in respect of a given title of a publication. The system is based on data from dblp and Semantic Scholar, which contain titles of publications as well as their abstracts and keywords. Different methods for determining the similarity and relevance of papers were investigated. These include Tf/idf, BM25 and cosine similarity in conjunction with Doc2Vec. Various techniques were analysed in order to find and rank the journals and conferences associated with the corresponding papers. In addition, methods were developed to improve the results of the recommender system, such as looking at the number of citations from journals and conferences. The methods were evaluated automatically and manually. It turned out that cosine similarity with Doc2Vec did not achieve good results in contrast to the other two methods. To improve the usability of the recommender system, a visualisation in form of a web service was implemented.
Seit der Entwicklung des Semantic Web durch Tim Berners-Lee werden immer mehr Informationen im Internet als Linked Open Data veröffentlicht. Diese sind speziell darauf ausgelegt, von Maschinen ausgewertet werden zu können. Alle Elemente erhalten eindeutige Identifkatoren. Anschließend können die Elemente über Relationen miteinander verknüpft werden und bilden immer größere Netze. Ergebnis ist ein "Giant Global Graph", in dem sämtliche Dinge von Interesse referenziert werden können.
Doch während die Datenmenge im SemanticWeb ständig wächst, können sie nur von wenigen genutzt werden. Die Suche nach Informationen gestaltet sich schwierig, da der Nutzer einige Vorkenntnisse benötigt. Einerseits muss er wissen, wie die Daten im Graphen miteinander verbunden sind und wie sie bezeichnet werden. Andererseits benötigt er Kenntnis über die Anfragesprache SPARQL, mit der sich Anfragen an Datenquellen im Semantic Web stellen lassen. Die in dieser Arbeit entwickelte visuelle Anfragesprache erleichtert dem Nutzer den Einsteig und ermöglicht es damit auch Laien, das Sematic Web nach Informationen zu durchsuchen. Anstelle einer schriftlich ausformulierten Anfrage baut der Nutzer sich grafisch eine Anfrage aus vorgefertigten Elementen zusammen. Dafür wurde in dieser Arbeit das Programm Visual Query Builder entwickelt, das eine solche visuelle Anfragesprache implementiert. Durch die Angabe eines Schemas zum jeweiligen Datenendpunkt werden dem Nutzer die Elemente vorgegeben, die er verwenden kann. Somit kann der Nutzer erkennen, welche Elemente es überhaupt gibt und welche Attribute sie besitzen. Das in dieser Arbeit entwickelte Programm und die zu Grunde liegende visuelle Anfragesprache wurden anschließend von einer Gruppe Testpersonen evaluiert. Dabei konnte Visual Query Builder unter Beweis stellen, das es sowohl Anfängern als auch fortgeschrittenen Anwendern ermöglicht, eine Datenquelle im Semantic Web erfolgreich nach gewünschten Informationen zu durchsuchen. In der Evaluation wurde besonders auf die Bedienbarkeit der Anwendung geachtet. Dabei ergab die Auswertung, dass die Anwendung in beiden verwendeten Testverfahren gute Ergebnisse erzielte und ihre Effektivität unter Beweis stellen konnte.
Digitale Bibliotheken, wie zum Beispiel die dblp oder die Deutsche Nationalbibliothek (DNB), haben das ZielWissen online zusammenzuführen und über das Internet verfügbar zu machen. Leider gehören unvollständige Datensätze zum Alltag einer digitalen Bibliothek. Dabei könnten fehlende Informationen, wie zum Beispiel Titel oder Autorennamen, durch externeWeb-APIs ergänzt werden. Das Hauptproblem dabei ist die Integration der externen Daten in die lokale Datenbank, da erst ein gemeinsames Schema, welches dazu dient die Struktur der Daten zu beschreiben, gefunden werden muss. Dies ist die Hauptaufgabe der Schemaintegration, welche ein Teilgebiet der Informationsintegration und Datenmigration ist. Das in dieser Arbeit konzipierte Programm ActiveSPARQL nutzt die Schemaintegration aus, um Daten vonWeb-APIs zur Beantwortung von Anfragen on-the-fly zu benutzen. Stellt ein Nutzer eine Anfrage an die Anwendung, so sollen sowohl die Daten der lokalen Datenbank als auch der externenWeb-APIs verwendet werden, um diese zufriedenstellend beantworten zu können. Das Benutzen beider Quellen wird als hybride Anfrage bezeichnet. Der Entwurf orientiert sich dabei an dem bereits vorhandenen Framework ANGIE. Im Unterschied zu diesem wird keine Hülle zum Beantworten der Anfrage erzeugt, sondern eine erweiterte SPARQL-Anfrage. Außerdem setzt ANGIE voraus, dass die Zugriffsmethoden der Web-APIs von Hand deklariert werden müssen. Dieser Schritt kann durch das Programm AID4SPARQL automatisiert werden. Dieses ist in der Lage Linkage Points zwischen den lokalen und externen Daten zu finden und so sicherzustellen, dass externe Informationen kompatibel zu den lokalen Daten sind. Die Ergebnisse aus AID4SPARQL werden so aufbereitet, dass sie als Konfiguration für die Kommunikation mitWeb-APIs genutzt werden kann. Zusätzlich zu ActiveSPARQL wurde eineWeboberfläche konzipiert, die es Laien ermöglichen soll ohne Vorwissen hybride Anfragen erstellen und ausführen zu können. Abschließend wird ein Konzept zur Evaluation des Frameworks vorgestellt, welches dazu verwendet werden kann, um ANGIE und ActiveSPARQL zu vergleichen.
- kein Abstract verfügbar -
Abstract: This thesis introduces improvements to current approaches of classifying scientific work by observing the semantic similarity of publications in the same citation neighborhood. Available patterns in the neighborhood structures are used to generate an initial set of features. Different text representations, similarity measures and feature modes are implemented and studied to explore new approaches of generating meaningful features that improve classification procedures. Features are evaluated in terms of their predictive power when learning a model that distinguishes between seminal and survey publications. Learning patterns from features to better distinguish between the publications will be a proxy of the effectiveness of these features in evaluating research impact. The state-of-the-art research in this area achieved a result of 68.97% prediction accuracy whereas the approaches presented in this thesis achieved a prediction accuracy of up to 86.98% and therefore beat the latest results by a large margin. Thorough evaluation of the feature sets reveals which relationships in a neighborhood structure provide information that can help improve current research evaluation metrics by identifying high impact scientific work.
Keywords: Semantometrics - Feature Engineering - Natural Language Processing
Von Web-APIs lassen sich alle möglichen Informationen abrufen, zum Beispiel Metadaten von Publikationen. Jedoch ist nicht immer ersichtlich, welche Art von Daten an die Web-API gesendet werden muss, um eine sinnvolle Antwort zu erhalten. Für diese Problematik wurde ein Programm entwickelt, welches mithilfe einer Ausgangsdatenbank die passenden Übergabeparameter von Web-APIs lernt. Dazu wird jede Art von Daten der Ausgangsdatenbank an die Web-API gesendet und es wird überprüft, ob die Antwort der API zu den gesendeten Daten in einem Zusammenhang steht. Mit verschiedenen Parametern kann konfiguriert werden, wie stark die Antworten der Web-API mit den Daten der Ausgangsdatenbank übereinstimmen müssen, um als sinnvoll zu gelten. Dazu wurden mehrere Metriken zur Berechnung von Stringähnlichkeiten verwendet, um die Übereinstimmungen beider Datenmengen zu finden. Durch eine geeignete Evaluation konnte gezeigt werden, dass mit guten Konfigurationsparametern alle Übereinstimmungen gefunden werden. Im vorgestellten System hat ein Benutzer zudem die Möglichkeit verschiedene Metriken zum Vergleich der Ähnlichkeit zweier Werte zu wählen. So kann beispielsweise angegeben werden, dass zwischen manchen Daten eine genaue Übereinstimmung vorliegen muss, wie zum Beispiel bei ISBNs oder anderen IDs. Mit den richtigen Konfigurationsparametern, sowie der Kenntnis und der Angabe, welche Metrik für welche Datenart am besten geeignet ist, können fast alle Daten als Match erkannt werden, die auch ein Mensch als Match ansehen würde.
- kein Abstract verfügbar -
- kein Abstract verfügbar -
- kein Abstract verfügbar -
- kein Abstract verfügbar -
- kein Abstract verfügbar -
- kein Abstract verfügbar -
- kein Abstract verfügbar -
- kein Abstract verfügbar -
- kein Abstract verfügbar -
Abgeschlossene Masterarbeiten
- kein Abstract verfügbar -
- kein Abstract verfügbar -
- kein Abstract verfügbar -
In todays digital world, there exist many large scale databases consisting of texts. Thus it is important to have ways, in which data, a user is interested in, can be retrieved. One such way is presented by topic modeling algorithms, which automatically generate topics over a dataset and are then able to present documents as mixtures of these topics. This way, a user can filter publications based on the predominant topics they contain. However this approach works on the document level. The leading question in this thesis, is, how these models can be used to yield topical compositions of collections consisting of different documents. Specifically we take a look at scientific conferences from the field of computer science. This thesis presents a way to model those conferences as topic vectors. We then evaluate if these topic vectors share some similarity when the corresponding conferences are belonging to the same subfield of computer science. In order to do that we use clustering techniques to find groups of similar conferences based on our topical modeling and compare the obtained clustering with a golden dataset that groups conferences into subfields. This comparison is done using the rand index. Our results show a strong similarity between the golden clustering and the one obtained by our approach.
Stock movement prediction is a challenging task due to the characteristics of the stock market. However, it is a field where people can gain high returns with patience and a basic understanding of the stock market. Many previous studies have been conducted on predicting stock price movements using statistical techniques such as ARMA, ARIMA etc. In the era of social media, recent research on stock price movements has mostly focused on tweets, financial news, and company earnings calls. In this study, we concentrate on stock market prediction using news headlines. We construct models to predict the Dow Jones Industrial Average Index price using a single day’s top 25 news headlines. Our target variable is a binary variable, represented by 0 and 1. We create the target variable using the Dow Jones Industrial Average Adjusted Close Price. If the Adjusted Close Price increases or remains the same, we label it 1; otherwise, we label it 0. In our baseline model, we first concatenate all 25 news headlines to create a whole sentence. Then we preprocess the news text by performing steps such as removing punctuation, lemmatizing, and identifying named entities. After that, we apply conventional vectorisers such as CountVectorizer and TF-IDF vectorizer to extract numerical values from the text. We then use standard algorithms for the training and testing data. Instead of using CountVectorizer and TF-IDF in our next model, we employ word embedding models like GloVe and Word2Vec. Our third model uses a state-of-the-art BERT embedding layer instead of GloVe and Word2Vec. In our final model, we adopt a novel approach that combines the BERT embedding layer with various text stylistic features and sentiment scores such as positivity, negativity, and compound to predict stock price movements. In this thesis, we achieved an accuracy of approximately 59% in predicting stock price movements.
Integrating statistical and machine learning (ML) and deep learning (DL) techniques is quickly gaining popularity in different business sectors, inventory management, marketing, and financial planning, all so businesses can attain a competitive edge in the market by effectively directing their resources and identifying the opportunities and challenges in their processes. This study delves into the application of various statistical, ML, and DL models to predict both a company’s monthly turnover and individual project turnovers. Utilizing all years of non-truncated data, models such as SARIMAX, Prophet, SimpleFeedForward, and DeepAR were rigorously trained, evaluated, and backtested. Results showcased SARIMAX’s higher predictive accuracy, with the SimpleFeedForward model training. For project-level forecasting, the data was transformed into lagged datasets, aggregated with unique project features. Using models like Decision Tree, Random Forest, Gradient Boosting Regressor, and XGBoost, the study unearthed intriguing insights. While initial trials with 5-lags were underwhelming, extending to 10 and 15 lags progressively improved performance, culminating in an outstanding average MAPE of approximately 5% at 20 lags. Furthermore, the adaptive, perfective and explainable aspects of the developed forecasting tool makes it simple for anyone to replicate the results or choose to repeat the process with a different dataset.
This thesis is conducted in collaboration with Ramboll, a renowned global firm specializing in architecture, engineering, and consultancy services. The Department of Energy in Hamburg has actively engaged in various projects related to offshore wind energy. Aligned with these endeavors, the present research topic emerged to address the ongoing need for estimating structural health by predicting fatigue using Supervisory Control and Data Acquisition (SCADA) data. The primary focus is to leverage data collected from structures equipped with both SCADA sensors and strain gauges and employ models to estimate fatigue on other structures with no strain gauges.
The subsequent chapters delve into in-depth discussions on data, preprocessing, feature selection, and machine learning, shedding light on their operational mechanisms. The rationale behind utilizing specific machine learning models, such as Long Short-Term Memory (LSTM), Bidirectional Long Short-Term Memory (BiLSTM), Extreme Gradient Boosting (XGBoost), and AutoRegressive Integrated Moving Average (ARIMA), is explored. The evaluation of these models provides an assessment of their performance, efficiency, and accuracy, offering an understanding of why certain models are better suited for fatigue prediction.