O Million Song Dataset é uma coleção de recursos e metadados de áudio disponíveis gratuitamente para um milhão de faixas de música popular contemporânea.

Seus objetivos são:

- Incentivar a pesquisa de algoritmos que se dimensionam para tamanhos comerciais.
- Fornecer um conjunto de dados de referência para avaliar a pesquisa.
- Como alternativa de atalho para a criação de um grande conjunto de dados com APIs (por exemplo, The Echo Nest)
- Ajudar novos pesquisadores a começar no campo MIR.

O núcleo do conjunto de dados é a análise de recursos e os metadados de um milhão de músicas, fornecidos pelo The Echo Nest. O conjunto de dados não inclui nenhum áudio, apenas os recursos derivados. Observe, no entanto, que amostra de áudio pode ser obtida em serviços como 7digital, usando o código que fornecemos.

O Million Song Dataset também é um cluster de conjuntos de dados complementares contribuídos pela comunidade:

- Conjunto de dados SecondHandSongs -> músicas cover
- Conjunto de dados musiXmatch -> letra
- Conjunto de dados da Last.fm -> tags e semelhanças no nível da música
- Subconjunto Taste Profile -> dados do usuário
- Mapeamento thisismyjam-to-MSD -> mais dados do usuário
- Anotações de gênero tagtraum -> rótulos de gênero
- Principais conjuntos de dados MAGD -> mais rótulos de gênero

O Million Song Dataset começou como um projeto colaborativo entre The Echo Nest e LabROSA. Foi apoiado em parte pela NSF.

The Million Song Dataset is a freely available collection of audio features and metadata for one million contemporary popular music tracks.

Its goals are:

- To encourage research on algorithms that scale to commercial sizes.
- To provide a benchmark dataset for evaluating research.
- To serve as a shortcut alternative to building a large dataset with APIs (e.g., The Echo Nest)
- To help new researchers get started in the MIR field.

The core of the dataset is the feature analysis and metadata of one million songs, provided by The Echo Nest. The dataset does not include any audio, only the derived features. Note, however, that audio sample can be obtained from services like 7digital, using the code we provide.

The Million Song Dataset is also a cluster of complementary datasets contributed by the community:

- SecondHandSongs dataset -> cover songs
- musiXmatch dataset -> lyrics
- Last.fm dataset -> tags and similarity at the song level
- Taste Profile subset -> user data
- thisismyjam-to-MSD mapping -> more user data
- tagtraum genre annotations -> genre labels
- MAGD main datasets -> more genre labels

The Million Song Dataset started as a collaborative project between The Echo Nest and LabROSA. It was supported in part by the NSF.