Pobieranie informacji o muzyce - Music information retrieval
Wyszukiwanie informacji muzycznych ( MIR ) to interdyscyplinarna nauka polegająca na wyszukiwaniu informacji z muzyki . MIR to mała, ale rozwijająca się dziedzina badań z wieloma zastosowaniami w świecie rzeczywistym. Osoby zaangażowane w MIR mogą mieć wykształcenie w zakresie muzykologii , psychoakustyki , psychologii , akademickiej nauki muzyki, przetwarzania sygnałów , informatyki , uczenia maszynowego , optycznego rozpoznawania muzyki, inteligencji obliczeniowej lub ich kombinacji.
Aplikacje
MIR jest używany przez firmy i naukowców do kategoryzowania, manipulowania, a nawet tworzenia muzyki.
Klasyfikacja muzyczna
Jednym z klasycznych tematów badawczych MIR jest klasyfikacja gatunkowa, która polega na kategoryzacji elementów muzycznych do jednego z predefiniowanych gatunków, takich jak muzyka klasyczna, jazz, rock itp. Popularnymi tematami są również klasyfikacja nastroju, klasyfikacja wykonawców i tagowanie muzyki.
Systemy polecające
Istnieje już kilka systemów rekomendujących dla muzyki, ale zaskakująco niewiele jest opartych na technikach MIR, zamiast tego wykorzystuje podobieństwa między użytkownikami lub pracochłonną kompilację danych. Na przykład Pandora wykorzystuje ekspertów do oznaczania muzyki konkretnymi cechami, takimi jak „piosenkarka” lub „silna linia basu”. Wiele innych systemów znajduje użytkowników, których historia słuchania jest podobna i sugeruje użytkownikom niesłyszalną muzykę z ich kolekcji. Techniki MIR dla podobieństwa w muzyce zaczynają teraz stanowić część takich systemów.
Separacja źródeł muzyki i rozpoznawanie instrumentów
Separacja źródeł muzyki polega na oddzieleniu oryginalnych sygnałów od zmiksowanego sygnału audio. Rozpoznawanie instrumentów polega na identyfikacji instrumentów zaangażowanych w muzykę. Opracowano różne systemy MIR, które mogą rozdzielać muzykę na jej ścieżki składowe bez dostępu do kopii głównej. W ten sposób np. ścieżki karaoke mogą być tworzone ze zwykłych ścieżek muzycznych, chociaż proces ten nie jest jeszcze doskonały, ponieważ wokale zajmują część tej samej przestrzeni częstotliwości, co inne instrumenty.
Automatyczna transkrypcja muzyki
Automatyczna transkrypcja muzyki to proces przekształcania nagrania audio w notację symboliczną, taką jak partytura lub plik MIDI . Proces ten obejmuje kilka zadań analizy dźwięku, które mogą obejmować detekcję wielotonową, detekcję początku , szacowanie czasu trwania, identyfikację instrumentu oraz ekstrakcję informacji harmonicznych, rytmicznych lub melodycznych. Zadanie to staje się trudniejsze przy większej liczbie instrumentów i wyższym poziomie polifonii .
Pokolenie muzyki
Automatyczne generowanie muzyki jest celem posiadanych przez wielu badaczy MIR. Próby były podejmowane z ograniczonym sukcesem, jeśli chodzi o ludzką ocenę wyników.
Zastosowane metody
Źródło danych
Partytury dają jasny i logiczny opis muzyki, z której należy pracować, ale dostęp do zapisów nutowych, zarówno cyfrowych, jak i innych, jest często niepraktyczny. Z podobnych powodów wykorzystywano również muzykę MIDI , ale niektóre dane są tracone podczas konwersji do formatu MIDI z dowolnego innego formatu, chyba że muzyka została napisana z myślą o standardach MIDI, co jest rzadkością. Cyfrowe formaty audio, takie jak WAV , mp3 i ogg , są używane, gdy sam dźwięk jest częścią analizy. Stratne formaty, takie jak mp3 i ogg, dobrze sprawdzają się w ludzkim uchu, ale mogą brakować kluczowych danych do badań. Dodatkowo niektóre kodowania tworzą artefakty, które mogą wprowadzać w błąd dowolny automatyczny analizator. Mimo to wszechobecność mp3 oznacza, że wiele badań w tej dziedzinie obejmuje je jako materiał źródłowy. Coraz częściej metadane wydobywane z sieci są włączane do MIR w celu lepszego zrozumienia muzyki w jej kontekście kulturowym, a ostatnio obejmuje to analizę znaczników społecznościowych dla muzyki.
Reprezentacja funkcji
Analiza może często wymagać pewnego podsumowania, a w przypadku muzyki (podobnie jak w przypadku wielu innych form danych) osiąga się to poprzez ekstrakcję funkcji , zwłaszcza gdy sama treść audio jest analizowana i ma być zastosowane uczenie maszynowe. Celem jest zredukowanie samej ilości danych do łatwego w zarządzaniu zestawu wartości, tak aby nauka mogła zostać przeprowadzona w rozsądnych ramach czasowych. Jedną wspólną cechą wyodrębnioną jest współczynnik cepstralny Mel-Frequency (MFCC), który jest miarą barwy utworu muzycznego. Inne cechy mogą być wykorzystane do przedstawienia tonacji , akordów, harmonii, melodii , wysokości głównej , uderzeń na minutę lub rytmu w utworze. Istnieje wiele dostępnych narzędzi do ekstrakcji funkcji audio dostępnych tutaj
Statystyki i uczenie maszynowe
- Metody obliczeniowe do klasyfikacji, grupowania i modelowania — wyodrębnianie cech muzycznych dla muzyki mono- i polifonicznej , dopasowywanie podobieństw i wzorców , wyszukiwanie
- Formalne metody i bazy danych — aplikacje automatycznej identyfikacji i rozpoznawania muzyki , takie jak śledzenie partytury , automatyczny akompaniament, routing i filtrowanie zapytań o muzykę i muzykę, języki zapytań, standardy i inne metadane lub protokoły do obsługi i wyszukiwania informacji o muzyce , systemy wieloagentowe , wyszukiwanie rozproszone)
- Oprogramowanie do wyszukiwania informacji o muzyce — sieć semantyczna i muzyczne obiekty cyfrowe, inteligentne agenty, oprogramowanie do współpracy, wyszukiwanie internetowe i wyszukiwanie semantyczne , kwerenda poprzez nucenie / wyszukiwanie według dźwięku , akustyczne odciski palców
- Analiza muzyki i reprezentacja wiedzy — automatyczne podsumowywanie, cytowanie, fragmenty, degradowanie, transformacja, formalne modele muzyki, cyfrowe partytury i reprezentacje, indeksowanie muzyki i metadane .
Inne sprawy
- Interakcja i interfejsy człowiek-komputer — interfejsy multimodalne, interfejsy użytkownika i użyteczność , aplikacje mobilne, zachowania użytkowników
- Percepcja muzyki, poznanie, afekt i emocje — metryki podobieństwa muzyki , parametry syntaktyczne, parametry semantyczne, formy muzyczne, struktury, style i metodologie anotacji muzycznych
- Archiwa muzyczne, biblioteki i kolekcje cyfrowe — muzyczne biblioteki cyfrowe , publiczny dostęp do archiwów muzycznych, benchmarków i baz danych badawczych
- Prawa własności intelektualnej i muzyka — krajowe i międzynarodowe kwestie dotyczące praw autorskich , zarządzanie prawami cyfrowymi , identyfikacja i identyfikowalność
- Socjologia i ekonomia muzyki — przemysł muzyczny i wykorzystanie MIR w produkcji, dystrybucji, łańcuchu konsumpcji, profilowaniu użytkowników, walidacji, potrzebach i oczekiwaniach użytkowników, ocenie muzycznych systemów IR, budowaniu kolekcji testowych, projektowaniu eksperymentów i metrykach
Działalność naukowa
- Konferencja International Society for Music Information Retrieval (ISMIR) jest najważniejszym miejscem badań nad wyszukiwaniem informacji muzycznych.
- Międzynarodowa konferencja nt. akustyki, mowy i przetwarzania sygnałów (ICASSP) jest również bardzo ważnym miejscem.
Zobacz też
- Wyszukiwarka audio
- Wydobywanie dźwięku
- Zarządzanie Prawami Cyfrowymi
- Przetwarzanie sygnału cyfrowego
- Etnomuzykologia
- Lista oprogramowania muzycznego
- Pobieranie informacji multimedialnych
- Automatyczne rozpoznawanie treści
- Zapis nutowy
- Muzykologia
- Optyczne rozpoznawanie muzyki
- Kod proboszcza
- Przetwarzanie dźwięku i muzyki
Bibliografia
- Michael Fingerhut (2004). „Music Information Retrieval, czyli jak szukać (i być może znaleźć) muzykę i pozbyć się incipitów” , Kongres IAML-IASA , Oslo (Norwegia), 8–13 sierpnia 2004.
Zewnętrzne linki
- Międzynarodowe Towarzystwo Wydobycia Informacji Muzycznej
- Wyszukiwanie informacji o muzyce
- J. Stephen Downie: Pozyskiwanie informacji o muzyce
- M. Schedl, E. Gómez i J. Urbano: Wyszukiwanie informacji o muzyce: najnowsze osiągnięcia i zastosowania
- Nicola Orio: Odzyskiwanie muzyki: samouczek i przegląd
- Intelligent Audio Systems: Foundations and Applications of Music Information Retrieval, kurs wprowadzający w Centrum Badań Komputerowych w Muzyce i Akustyce Uniwersytetu Stanforda
- Micheline Lesaffre: Wyszukiwanie informacji o muzyce: ramy koncepcyjne, adnotacje i zachowanie użytkownika.
- The Echo Nest: firma specjalizująca się w badaniach i zastosowaniach MIR.
- Imagine Research: opracowuje platformę i oprogramowanie do aplikacji MIR
- AudioContentAnalysis.org: zasoby MIR i kod Matlab