Similarity Measures in theWorld of Music Master Thesis

Abstract

The distribution of music happens more and more over the internet. On single computers large collections of music are formed. And they are ever growing since the copying of digital data is an easy obstacle to overcome. These collections are so large that one hardly can have an overview of it. To help ordering music, in this thesis musical songs are encoded in a graph representation. Songs which are linked are expected to be similar. The distance in the graph then is the similarity of two songs. A large collection of user’s favorite songs is downloaded from last.fm to form such a graph with 430000 nodes. Furthermore, to evaluate the quality of graph and embedding, a measurement using a category-tree is introduced. Most algorithms on the raw graph are too complex (even a single shortest-path-computation has complexity O(m + n log n)). To create a reasonable application using this graph, it is therefore almost inevitable to assign distance labels to the nodes. A new embedding-algorithm (IterativeLMDS) is proposed which is based on LMDS, and it is shown that it improves the quality. Using the embedding, a web-application is presented which is able to create playlist and propose styles for songs in less than a second. Musik wird immer mehr digital über das Internet verbreitet. Auf einzelnen Computer sammeln sich grosse Mengen an Musikstücken an. Und diese Musik-Kollektionen wachsen ständig, da das Kopieren und Verteilen von digitalen Daten sehr einfach ist. Die Menge an Musikstücken wird so gross, dass es zunehmend schwieriger wird, den Ueberblick darüber zu behalten. In dieser Arbeit werden Musikstücke in Form eines Graphen dargestellt, um die Ordnung und die Organisation von Musik zu vereinfachen. Die Distanz in diesem Graphen entspricht dabei der Aehnlichkeit der beiden entsprechenden Musikstücke. Aus einer grosse Anzahl von Lieblingssongs von last.fm-Usern wird ein Graph mit etwa 430000 Knoten gebildet. Um die Qualität dieses Graphen und der Embeddings zu messen, wird ein Mass für die Qualität von Aehnlichkeit von Musik, basierend auf einem Kategorien-Baum, eingeführt. Da die meisten Algorithmen für Graphen zu komplex sind (die Berechnung eines kürzesten Pfades hat KomplexitätO(m+n log n))), ist es beinahe unabdingbar, ein Embedding des Graphen erzeugen. Dazu wird ein neuer Embedding-Algorithmus (IterativeLMDS) vorgeschlagen der auf LMDS basiert. Es wird gezeigt, dass die Qualität des Embeddings durch IterativeLMDS erhöht wird. Unter Verwendung des Embeddings wird eine WebApplikation entwickelt, mit der man Playlisten generieren kann und Musikstücken Genres zuordnen kann. Dank dem Embedding dauern diese Abfragen nur wenige Zehntelsekunden.

23 Figures and Tables

Cite this paper

@inproceedings{Lorenzi2007SimilarityMI, title={Similarity Measures in theWorld of Music Master Thesis}, author={Michael Lorenzi and Roger Wattenhofer and Olga Goussevskaia and Michael Kuhn}, year={2007} }