Pobieranie informacji o muzyce - Music information retrieval

Wyszukiwanie informacji muzycznych ( MIR ) to interdyscyplinarna nauka polegająca na wyszukiwaniu informacji z muzyki . MIR to mała, ale rozwijająca się dziedzina badań z wieloma zastosowaniami w świecie rzeczywistym. Osoby zaangażowane w MIR mogą mieć wykształcenie w zakresie muzykologii , psychoakustyki , psychologii , akademickiej nauki muzyki, przetwarzania sygnałów , informatyki , uczenia maszynowego , optycznego rozpoznawania muzyki, inteligencji obliczeniowej lub ich kombinacji.

Aplikacje

MIR jest używany przez firmy i naukowców do kategoryzowania, manipulowania, a nawet tworzenia muzyki.

Klasyfikacja muzyczna

Jednym z klasycznych tematów badawczych MIR jest klasyfikacja gatunkowa, która polega na kategoryzacji elementów muzycznych do jednego z predefiniowanych gatunków, takich jak muzyka klasyczna, jazz, rock itp. Popularnymi tematami są również klasyfikacja nastroju, klasyfikacja wykonawców i tagowanie muzyki.

Systemy polecające

Istnieje już kilka systemów rekomendujących dla muzyki, ale zaskakująco niewiele jest opartych na technikach MIR, zamiast tego wykorzystuje podobieństwa między użytkownikami lub pracochłonną kompilację danych. Na przykład Pandora wykorzystuje ekspertów do oznaczania muzyki konkretnymi cechami, takimi jak „piosenkarka” lub „silna linia basu”. Wiele innych systemów znajduje użytkowników, których historia słuchania jest podobna i sugeruje użytkownikom niesłyszalną muzykę z ich kolekcji. Techniki MIR dla podobieństwa w muzyce zaczynają teraz stanowić część takich systemów.

Separacja źródeł muzyki i rozpoznawanie instrumentów

Separacja źródeł muzyki polega na oddzieleniu oryginalnych sygnałów od zmiksowanego sygnału audio. Rozpoznawanie instrumentów polega na identyfikacji instrumentów zaangażowanych w muzykę. Opracowano różne systemy MIR, które mogą rozdzielać muzykę na jej ścieżki składowe bez dostępu do kopii głównej. W ten sposób np. ścieżki karaoke mogą być tworzone ze zwykłych ścieżek muzycznych, chociaż proces ten nie jest jeszcze doskonały, ponieważ wokale zajmują część tej samej przestrzeni częstotliwości, co inne instrumenty.

Automatyczna transkrypcja muzyki

Automatyczna transkrypcja muzyki to proces przekształcania nagrania audio w notację symboliczną, taką jak partytura lub plik MIDI . Proces ten obejmuje kilka zadań analizy dźwięku, które mogą obejmować detekcję wielotonową, detekcję początku , szacowanie czasu trwania, identyfikację instrumentu oraz ekstrakcję informacji harmonicznych, rytmicznych lub melodycznych. Zadanie to staje się trudniejsze przy większej liczbie instrumentów i wyższym poziomie polifonii .

Pokolenie muzyki

Automatyczne generowanie muzyki jest celem posiadanych przez wielu badaczy MIR. Próby były podejmowane z ograniczonym sukcesem, jeśli chodzi o ludzką ocenę wyników.

Zastosowane metody

Źródło danych

Partytury dają jasny i logiczny opis muzyki, z której należy pracować, ale dostęp do zapisów nutowych, zarówno cyfrowych, jak i innych, jest często niepraktyczny. Z podobnych powodów wykorzystywano również muzykę MIDI , ale niektóre dane są tracone podczas konwersji do formatu MIDI z dowolnego innego formatu, chyba że muzyka została napisana z myślą o standardach MIDI, co jest rzadkością. Cyfrowe formaty audio, takie jak WAV , mp3 i ogg , są używane, gdy sam dźwięk jest częścią analizy. Stratne formaty, takie jak mp3 i ogg, dobrze sprawdzają się w ludzkim uchu, ale mogą brakować kluczowych danych do badań. Dodatkowo niektóre kodowania tworzą artefakty, które mogą wprowadzać w błąd dowolny automatyczny analizator. Mimo to wszechobecność mp3 oznacza, że ​​wiele badań w tej dziedzinie obejmuje je jako materiał źródłowy. Coraz częściej metadane wydobywane z sieci są włączane do MIR w celu lepszego zrozumienia muzyki w jej kontekście kulturowym, a ostatnio obejmuje to analizę znaczników społecznościowych dla muzyki.

Reprezentacja funkcji

Analiza może często wymagać pewnego podsumowania, a w przypadku muzyki (podobnie jak w przypadku wielu innych form danych) osiąga się to poprzez ekstrakcję funkcji , zwłaszcza gdy sama treść audio jest analizowana i ma być zastosowane uczenie maszynowe. Celem jest zredukowanie samej ilości danych do łatwego w zarządzaniu zestawu wartości, tak aby nauka mogła zostać przeprowadzona w rozsądnych ramach czasowych. Jedną wspólną cechą wyodrębnioną jest współczynnik cepstralny Mel-Frequency (MFCC), który jest miarą barwy utworu muzycznego. Inne cechy mogą być wykorzystane do przedstawienia tonacji , akordów, harmonii, melodii , wysokości głównej , uderzeń na minutę lub rytmu w utworze. Istnieje wiele dostępnych narzędzi do ekstrakcji funkcji audio dostępnych tutaj

Statystyki i uczenie maszynowe

Inne sprawy

  • Interakcja i interfejsy człowiek-komputer — interfejsy multimodalne, interfejsy użytkownika i użyteczność , aplikacje mobilne, zachowania użytkowników
  • Percepcja muzyki, poznanie, afekt i emocje — metryki podobieństwa muzyki , parametry syntaktyczne, parametry semantyczne, formy muzyczne, struktury, style i metodologie anotacji muzycznych
  • Archiwa muzyczne, biblioteki i kolekcje cyfrowe — muzyczne biblioteki cyfrowe , publiczny dostęp do archiwów muzycznych, benchmarków i baz danych badawczych
  • Prawa własności intelektualnej i muzyka — krajowe i międzynarodowe kwestie dotyczące praw autorskich , zarządzanie prawami cyfrowymi , identyfikacja i identyfikowalność
  • Socjologia i ekonomia muzyki — przemysł muzyczny i wykorzystanie MIR w produkcji, dystrybucji, łańcuchu konsumpcji, profilowaniu użytkowników, walidacji, potrzebach i oczekiwaniach użytkowników, ocenie muzycznych systemów IR, budowaniu kolekcji testowych, projektowaniu eksperymentów i metrykach

Działalność naukowa

Zobacz też

Bibliografia

Zewnętrzne linki

Przykładowe aplikacje MIR