Porównanie zapisu analogowego i cyfrowego - Comparison of analog and digital recording

Dźwięk może być nagrywany, przechowywany i odtwarzany przy użyciu technik cyfrowych lub analogowych . Obie techniki wprowadzają błędy i zniekształcenia w dźwięku, a metody te można systematycznie porównywać. Muzycy i słuchacze spierali się o wyższość cyfrowych nad analogowymi nagraniami dźwiękowymi. Argumenty przemawiające za systemami analogowymi obejmują brak podstawowych mechanizmów błędów, które są obecne w cyfrowych systemach audio, w tym szumów aliasingu i kwantyzacji . Zwolennicy technologii cyfrowych wskazują na wysoki poziom wydajności możliwy w przypadku cyfrowego dźwięku, w tym doskonałą liniowość w paśmie słyszalnym oraz niski poziom szumów i zniekształceń.

Dwie znaczące różnice w wydajności między tymi dwiema metodami to szerokość pasma i stosunek sygnału do szumu ( stosunek S/N). Szerokość pasma systemu cyfrowego jest określana, zgodnie z częstotliwością Nyquista , przez używaną częstotliwość próbkowania . Szerokość pasma systemu analogowego zależy od fizycznych i elektronicznych możliwości obwodów analogowych. Stosunek S/N systemu cyfrowego może być ograniczony głębią bitową procesu digitalizacji, ale elektroniczna implementacja obwodów konwersji wprowadza dodatkowy szum. W systemie analogowym istnieją inne naturalne źródła szumu analogowego, takie jak szum migotania i niedoskonałości nośnika zapisu. Inne różnice w wydajności są specyficzne dla porównywanych systemów, takie jak zdolność do bardziej przejrzystych algorytmów filtrowania w systemach cyfrowych oraz nasycenie harmoniczne i zmiany prędkości w systemach analogowych.

Zakres dynamiczny

Zakres dynamiczny systemu audio jest miarą różnicy między najmniejszą i największą wartością amplitudy, jaką można przedstawić w medium. Cyfrowe i analogowe różnią się zarówno metodami przesyłania i przechowywania, jak i zachowaniem systemów dzięki tym metodom.

Zakres dynamiczny cyfrowych systemów audio może przekraczać zakres analogowych systemów audio. Konsumenckie analogowe taśmy kasetowe mają zakres dynamiczny od 60 do 70 dB. Transmisje analogowe FM rzadko mają zakres dynamiki przekraczający 50 dB. Dynamika płyty winylowej ciętej bezpośrednio może przekroczyć 70 dB. Analogowe taśmy-matki studyjne mogą mieć zakres dynamiki do 77 dB. Płyta LP wykonana z idealnego diamentu ma wielkość cech atomowych około 0,5 nanometra , co przy wielkości rowka 8 mikronów daje teoretyczny zakres dynamiki 110 dB. Płyta LP wykonana z doskonałego winylu LP miałaby teoretyczny zakres dynamiki 70 dB. Pomiary wskazują maksymalną rzeczywistą wydajność w zakresie od 60 do 70 dB. Zazwyczaj 16-bitowy konwerter analogowo-cyfrowy może mieć zakres dynamiki od 90 do 95 dB, podczas gdy stosunek sygnału do szumu (mniej więcej odpowiednik zakresu dynamiki, z uwzględnieniem braku szumu kwantyzacji, ale obecności taśmy syczenie) profesjonalnego magnetofonu szpulowego ¼ cala wynosi od 60 do 70 dB przy znamionowej mocy wyjściowej magnetofonu.

Korzyści płynące z używania rejestratorów cyfrowych z dokładnością większą niż 16-bitową można odnieść do 16-bitowej płyty audio CD. Stuart podkreśla, że ​​przy prawidłowym ditheringu rozdzielczość systemu cyfrowego jest teoretycznie nieskończona i że możliwe jest na przykład rozdzielenie dźwięków przy -110 dB (poniżej cyfrowej pełnej skali) w dobrze zaprojektowanym kanale 16-bitowym.

Warunki przeciążenia

Istnieją pewne różnice w zachowaniu systemów analogowych i cyfrowych, gdy obecne są sygnały o wysokim poziomie, gdzie istnieje możliwość, że takie sygnały mogą spowodować przeciążenie systemu. W przypadku sygnałów o wysokim poziomie analogowa taśma magnetyczna zbliża się do nasycenia , a pasmo przenoszenia wysokich częstotliwości spada proporcjonalnie do pasma przenoszenia niskich częstotliwości. Chociaż jest to niepożądane, słyszalny efekt tego może być rozsądnie nie do zakwestionowania. W przeciwieństwie do tego, cyfrowe rejestratory PCM wykazują łagodne zachowanie przy przeciążeniu; próbki, które przekraczają szczytowy poziom kwantyzacji, są po prostu obcinane, obcinając przebieg pod kątem prostym, co wprowadza zniekształcenia w postaci dużych ilości harmonicznych o wyższych częstotliwościach. W zasadzie systemy cyfrowe PCM mają najniższy poziom zniekształceń nieliniowych przy pełnej amplitudzie sygnału. W przypadku systemów analogowych jest zwykle odwrotnie, gdzie zniekształcenia mają tendencję do zwiększania się przy wysokich poziomach sygnału. W badaniu Mansona (1980) wzięto pod uwagę wymagania cyfrowego systemu audio dla nadawania wysokiej jakości. Stwierdzono, że system 16-bitowy byłby wystarczający, ale zwrócił uwagę na niewielką rezerwę, jaką system zapewnia w normalnych warunkach pracy. Z tego powodu zasugerowano użycie szybko działającego ogranicznika sygnału lub „ miękkiego strzyżenia ”, aby zapobiec przeciążeniu systemu.

W przypadku wielu nagrań zniekształcenia o wysokim poziomie na szczytach sygnału mogą być słyszalnie maskowane przez oryginalny sygnał, dzięki czemu duże ilości zniekształceń mogą być akceptowalne przy szczytowych poziomach sygnału. Różnica między systemami analogowymi i cyfrowymi polega na postaci błędu sygnału wysokiego poziomu. Niektóre wczesne przetworniki analogowo-cyfrowe wykazywały niełagodne zachowanie podczas przeciążenia, w którym sygnały przeciążenia były „zawijane” z dodatniej na ujemną pełną skalę. Nowoczesne konstrukcje przetworników oparte na modulacji sigma-delta mogą stać się niestabilne w warunkach przeciążenia. Zazwyczaj celem projektowym systemów cyfrowych jest ograniczenie sygnałów o wysokim poziomie, aby zapobiec przeciążeniu. Aby zapobiec przeciążeniu, nowoczesny system cyfrowy może kompresować sygnały wejściowe tak, że nie można osiągnąć pełnej skali cyfrowej

Degradacja fizyczna

W przeciwieństwie do kopiowania analogowego, kopie cyfrowe są dokładnymi replikami, które można powielać w nieskończoność i bez utraty generacji . Korekcja błędów umożliwia formatom cyfrowym tolerowanie znacznego pogorszenia jakości nośnika, chociaż nośniki cyfrowe nie są odporne na utratę danych. Konsumenckie płyty kompaktowe CD-R mają ograniczoną i zmienną żywotność ze względu na problemy związane zarówno z jakością, jak i jakością produkcji.

W przypadku płyt winylowych przy każdym odtworzeniu płyty nastąpi utrata wierności. Jest to spowodowane zużyciem igły stykającej się z powierzchnią płyty. Taśmy magnetyczne, zarówno analogowe, jak i cyfrowe, zużywają się w wyniku tarcia między taśmą a głowicami, prowadnicami i innymi częściami transportu taśmy, gdy taśma ślizga się po nich. Brązowy osad osadzający się na wacikach podczas czyszczenia ścieżki taśmy maszyny taśmowej to w rzeczywistości cząstki powłoki magnetycznej zrzucane z taśm. Zespół lepkiego zrzucania jest powszechnym problemem w przypadku starszych taśm. Taśmy mogą również ulegać marszczeniu, rozciąganiu i marszczeniu krawędzi podstawy taśmy z tworzywa sztucznego, szczególnie w przypadku taśm niskiej jakości lub nierównych taśm.

Podczas odtwarzania płyty CD nie ma kontaktu fizycznego, ponieważ dane są odczytywane optycznie za pomocą wiązki laserowej. Dlatego nie dochodzi do takiego pogorszenia jakości nośnika, a płyta CD z należytą starannością będzie brzmiała dokładnie tak samo za każdym razem, gdy zostanie odtworzona (nie licząc starzenia się odtwarzacza i samej płyty); jest to jednak zaleta systemu optycznego, a nie zapisu cyfrowego, a format Laserdisc zapewnia taką samą bezkontaktową korzyść, jak analogowe sygnały optyczne. Płyty CD cierpią z powodu gnicia płyty iz czasem ulegają powolnej degradacji, nawet jeśli są prawidłowo przechowywane i nie są odtwarzane. M-DISC , zapisywalna technologia optyczna, która sama się reklamuje jako czytelną przez 1000 lat, jest dostępna na niektórych rynkach, ale od końca 2020 r. nigdy nie była sprzedawana w formacie CD-R . (Dźwięk można jednak zapisać na płycie M-DISC DVD-R w formacie DVD-Audio .)

Hałas

W przypadku elektronicznych sygnałów audio źródła hałasu obejmują szum mechaniczny, elektryczny i termiczny w cyklu nagrywania i odtwarzania. Ilość szumu, który sprzęt audio dodaje do oryginalnego sygnału, można określić ilościowo. Matematycznie można to wyrazić za pomocą stosunku sygnału do szumu (SNR lub S/N). Czasami zamiast tego podawany jest maksymalny możliwy zakres dynamiki systemu.

W systemach cyfrowych jakość reprodukcji zależy od stopnia konwersji analogowo-cyfrowej i cyfrowo-analogowej i nie zależy od jakości nośnika zapisu, pod warunkiem, że jest to właściwe zachowanie wartości cyfrowych bez błędów. Nośniki cyfrowe zdolne do przechowywania i wyszukiwania bit-perfect są od pewnego czasu powszechne, ponieważ zostały opracowane z myślą o przechowywaniu oprogramowania, które nie toleruje błędów.

Proces konwersji analogowo-cyfrowej, zgodnie z teorią, zawsze wprowadza zniekształcenia kwantyzacji. To zniekształcenie może być renderowane jako nieskorelowany szum kwantyzacji poprzez użycie ditheringu . Wielkość tego szumu lub zniekształcenia jest określona przez liczbę poziomów kwantyzacji. W systemach binarnych jest to określane przez i zwykle określane w postaci liczby bitów . Każdy dodatkowy bit dodaje około 6 dB w możliwym SNR, np. 24 x 6 = 144 dB dla 24-bitowej kwantyzacji, 126 dB dla 21-bitowej i 120 dB dla 20-bitowej. 16-bitowy system cyfrowy płyty Red Book Audio CD ma 2 16 = 65 536 możliwych amplitud sygnału, co teoretycznie pozwala na SNR na poziomie 98  dB .

Huk

Dudnienie to rodzaj charakterystyki szumowej spowodowanej niedoskonałościami łożysk gramofonów, talerz ma tendencję do lekkiego ruchu poza pożądanym obrotem – powierzchnia gramofonu również porusza się w górę i w dół oraz lekko na boki. Ten dodatkowy ruch jest dodawany do pożądanego sygnału jako szum, zwykle o bardzo niskich częstotliwościach, tworząc dudniący dźwięk podczas cichych pasaży. Bardzo tanie gramofony czasami używały łożysk kulkowych , które z dużym prawdopodobieństwem generują słyszalne dudnienie. Droższe gramofony mają tendencję do używania masywnych łożysk ślizgowych , które znacznie rzadziej generują obraźliwe dudnienia. Zwiększona masa gramofonu również prowadzi do zmniejszenia dudnienia. Dobry gramofon powinien mieć dudnienie co najmniej 60 dB poniżej określonego poziomu wyjściowego z przetwornika. Ponieważ nie mają ruchomych części w torze sygnału, systemy cyfrowe nie są narażone na dudnienie.

Wow i trzepot

Wow i flutter są zmianą częstotliwości urządzenia analogowego i są wynikiem mechanicznych niedoskonałości, przy czym wow jest wolniejszą formą drgań. Wow i flutter są najbardziej zauważalne na sygnałach zawierających czyste tony. W przypadku płyt LP jakość gramofonu będzie miała duży wpływ na poziom wow i trzepotania. Dobry gramofon będzie miał wartości wow i flutter poniżej 0,05%, co jest odchyleniem prędkości od wartości średniej. Kołysanie i trzepotanie może być również obecne w nagraniu, w wyniku niedoskonałej pracy rejestratora. Dzięki zastosowaniu precyzyjnych oscylatorów kryształowych do ich podstawy czasu , systemy cyfrowe nie podlegają wow i trzepotaniu.

Pasmo przenoszenia

W przypadku systemów cyfrowych górna granica odpowiedzi częstotliwościowej jest określona przez częstotliwość próbkowania . Wybór częstotliwości próbkowania próbki w systemie cyfrowym opiera się na twierdzeniu Nyquista-Shannona o próbkowaniu . Oznacza to, że próbkowany sygnał może być odtwarzany dokładnie tak długo, jak jest próbkowany z częstotliwością większą niż dwukrotność szerokości pasma sygnału, czyli częstotliwość Nyquista . Dlatego częstotliwość próbkowania 40 kHz jest matematycznie wystarczająca do wychwycenia wszystkich informacji zawartych w sygnale mającym składowe częstotliwości mniejsze lub równe 20 kHz. Twierdzenie o próbkowaniu wymaga również, aby zawartość częstotliwości powyżej częstotliwości Nyquista została usunięta z sygnału przed próbkowaniem. Osiąga się to za pomocą filtrów antyaliasingowych, które wymagają pasma przejściowego, aby wystarczająco zredukować aliasing. Szerokość pasma zapewniana przez częstotliwość próbkowania 44 100 Hz wykorzystywana przez standard dla płyt audio CD jest wystarczająco szeroka, aby objąć cały zakres ludzkiego słuchu , który w przybliżeniu rozciąga się od 20 Hz do 20 kHz. Profesjonalne rejestratory cyfrowe mogą rejestrować wyższe częstotliwości, podczas gdy niektóre systemy konsumenckie i telekomunikacyjne rejestrują bardziej ograniczony zakres częstotliwości.

Wysokiej jakości maszyny szpulowe mogą rozciągać się od 10 Hz do ponad 20 kHz. Niektórzy producenci taśm analogowych określają pasmo przenoszenia do 20 kHz, ale pomiary te mogły być wykonane przy niższych poziomach sygnału. Kasety kompaktowe mogą mieć odpowiedź sięgającą do 15 kHz przy pełnym (0 dB) poziomie nagrywania. Przy niższych poziomach (-10 dB), kasety są zwykle ograniczone do 20 kHz z powodu samokasowania nośnika taśmy.

Pasmo przenoszenia dla konwencjonalnego odtwarzacza LP może wynosić od 20 Hz do 20 kHz, ±3 dB. Niskie pasmo przenoszenia płyt winylowych jest ograniczone przez dudnienie (opisane powyżej), a także fizyczne i elektryczne właściwości całego ramienia przetwornika i zespołu przetwornika. Charakterystyka wysokiej częstotliwości winylu zależy od wkładki. Rekordy CD4 zawierały częstotliwości do 50 kHz. Na płytach LP eksperymentalnie wycięto częstotliwości do 122 kHz.

Aliasy

Systemy cyfrowe wymagają, aby cała zawartość sygnału o wysokiej częstotliwości powyżej częstotliwości Nyquista została usunięta przed próbkowaniem, co, jeśli nie zostanie to zrobione, spowoduje, że te częstotliwości ultradźwiękowe „przewiną się” w częstotliwości, które są w zakresie słyszalnym, powodując pewnego rodzaju zniekształcenia o nazwie aliasowanie . Aliasingowi zapobiega w systemach cyfrowych filtr antyaliasingowy . Jednak zaprojektowanie filtra analogowego, który precyzyjnie usuwa całą zawartość częstotliwości dokładnie powyżej lub poniżej określonej częstotliwości granicznej, jest niepraktyczne. Zamiast tego wybierana jest zwykle częstotliwość próbkowania, która przekracza wymagania Nyquista. To rozwiązanie nazywa się oversamplingiem i pozwala na zastosowanie mniej agresywnego i tańszego filtra antyaliasingu.

Wczesne systemy cyfrowe mogły cierpieć z powodu wielu degradacji sygnału związanych z użyciem analogowych filtrów antyaliasingowych, np. dyspersji czasowej, zniekształceń nieliniowych , tętnień , zależności od temperatury filtrów itp. Wykorzystując konstrukcję oversamplingu i modulację delta-sigma , mniej agresywny analogowy filtr antyaliasingowy można uzupełnić filtrem cyfrowym. Takie podejście ma kilka zalet. Filtr cyfrowy może być wykonany tak, aby miał prawie idealną funkcję transferu, z niskimi tętnieniami w paśmie i bez starzenia lub dryfu termicznego.

Systemy analogowe nie podlegają ograniczeniom Nyquist ani aliasingowi, a zatem nie wymagają filtrów antyaliasingowych ani żadnych związanych z nimi względów projektowych. Zamiast tego ograniczenia analogowych formatów pamięci są określane przez fizyczne właściwości ich konstrukcji.

Częstotliwość próbkowania

Dźwięk o jakości CD jest próbkowany z częstotliwością 44 100 Hz ( częstotliwość Nyquista = 22,05 kHz) i 16 bitami. Próbkowanie kształtu fali przy wyższych częstotliwościach i umożliwienie większej liczby bitów na próbkę pozwala na dalszą redukcję szumów i zniekształceń. DAT może próbkować dźwięk z częstotliwością do 48 kHz, podczas gdy DVD-Audio może mieć 96 lub 192 kHz i rozdzielczość do 24 bitów. Przy dowolnej z tych częstotliwości próbkowania informacje o sygnale są przechwytywane powyżej zakresu powszechnie uważanego za zakres słyszalności człowieka .

Praca wykonana w 1981 roku przez Muraoka et al. pokazał, że sygnały muzyczne o składowych częstotliwości powyżej 20 kHz były odróżniane od tych bez niego tylko kilka ze 176 badanych. Badanie percepcyjne przeprowadzone przez Nishiguchi et al. (2004) doszli do wniosku, że „nie znaleziono znaczącej różnicy między dźwiękami z komponentami o bardzo wysokiej częstotliwości i bez nich wśród bodźców dźwiękowych i badanych… jednakże [Nishiguchi i in.] nadal nie mogą ani potwierdzić, ani zaprzeczyć możliwości, że niektórzy badani mogą rozróżniać pomiędzy dźwiękami muzycznymi z komponentami o bardzo wysokiej częstotliwości i bez nich.”

W ślepych testach odsłuchowych przeprowadzonych przez Boba Katza w 1996 roku, opisanych w jego książce Mastering Audio: The Art and the Science , badani używający tego samego sprzętu do reprodukcji o wysokiej częstotliwości próbkowania nie mogli dostrzec żadnej słyszalnej różnicy między materiałem programu identycznie przefiltrowanym w celu usunięcia częstotliwości powyżej 20 kHz kontra 40 kHz. Pokazuje to, że obecność lub brak treści ultradźwiękowej nie wyjaśnia słuchowej zmienności między częstotliwościami próbkowania. Zakłada, że ​​zmienność wynika w dużej mierze z wydajności filtrów ograniczających pasmo w przetwornikach. Wyniki te sugerują, że główną korzyścią z używania wyższych częstotliwości próbkowania jest to, że powoduje to wypychanie wynikowych zniekształceń fazowych z filtrów ograniczających pasmo poza zakres słyszalny i że w idealnych warunkach wyższe częstotliwości próbkowania mogą nie być konieczne. Dunn (1998) zbadał wydajność przetworników cyfrowych, aby sprawdzić, czy te różnice w wydajności można wytłumaczyć filtrami ograniczającymi pasmo stosowane w przetwornikach i szukając wprowadzanych przez nie artefaktów.

Kwantyzacja

Ilustracja kwantyzacji próbkowanego przebiegu audio przy użyciu 4 bitów.

Sygnał jest rejestrowany cyfrowo przez przetwornik analogowo-cyfrowy , który mierzy amplitudę sygnału analogowego w regularnych odstępach czasu określonych przez częstotliwość próbkowania, a następnie przechowuje te próbkowane liczby w sprzęcie komputerowym. Liczby na komputerach reprezentują skończony zbiór wartości dyskretnych, co oznacza, że ​​jeśli sygnał analogowy jest próbkowany cyfrowo przy użyciu metod natywnych (bez ditheringu), amplituda sygnału audio zostanie po prostu zaokrąglona do najbliższej reprezentacji. Proces ten nazywa się kwantyzacją, a te małe błędy w pomiarach manifestują się słuchowo jako niski poziom szumów lub zniekształceń. Ta forma zniekształceń, czasami nazywana zniekształceniami ziarnistymi lub kwantyzacyjnymi, była wskazywana jako wina niektórych systemów i nagrań cyfrowych, zwłaszcza wczesnych nagrań cyfrowych, w których cyfrowe wydanie miało być gorsze od wersji analogowej. Jednak „jeśli kwantyzacja jest wykonywana przy użyciu właściwego ditheru, to jedyną konsekwencją digitalizacji jest w rzeczywistości dodanie białego, nieskorelowanego, łagodnego, losowego szumu tła. Poziom szumu zależy od liczby bitów w kanał."

Zakres możliwych wartości, które mogą być reprezentowane numerycznie przez próbkę, jest określony przez liczbę użytych cyfr binarnych. Nazywa się to rozdzielczością i jest zwykle określane jako głębia bitowa w kontekście dźwięku PCM. Poziom szumu kwantyzacji jest bezpośrednio określony przez tę liczbę, malejącą wykładniczo (liniowo w jednostkach dB) wraz ze wzrostem rozdzielczości. Przy odpowiedniej głębi bitowej losowy szum z innych źródeł będzie dominował i całkowicie zamaskuje szum kwantyzacji. Standard Redbook CD wykorzystuje 16 bitów, co utrzymuje szum kwantyzacji 96 dB poniżej maksymalnej amplitudy, znacznie poniżej dostrzegalnego poziomu przy prawie każdym materiale źródłowym. Dodanie efektywnego ditheringu oznacza, że ​​„w praktyce rozdzielczość jest ograniczona naszą zdolnością do rozpoznawania dźwięków w hałasie. … Nie mamy problemu z pomiarem (i słyszeniem) sygnałów o wartości –110 dB w dobrze zaprojektowanym 16-bitowym kanał." DVD-Audio i najnowocześniejszy profesjonalny sprzęt do nagrywania pozwala na próbki 24-bitowe.

Systemy analogowe niekoniecznie mają dyskretne poziomy cyfrowe, w których zakodowany jest sygnał. W konsekwencji dokładność, z jaką można zachować oryginalny sygnał, jest zamiast tego ograniczona przez wewnętrzny poziom szumów i maksymalny poziom sygnału nośnika i sprzętu odtwarzającego.

Kwantyzacja w mediach analogowych

Ponieważ media analogowe składają się z cząsteczek , najmniejsza struktura mikroskopowa reprezentuje najmniejszą jednostkę kwantyzacji zarejestrowanego sygnału. Naturalne procesy ditheringu, takie jak losowe ruchy termiczne molekuł, niezerowy rozmiar instrumentu do odczytu i inne efekty uśredniania, sprawiają, że praktyczna granica jest większa niż w przypadku najmniejszej molekularnej cechy strukturalnej. Teoretyczny LP złożony z idealnego diamentu, z rowkiem o wielkości 8 mikronów i wielkością cechy 0,5 nanometra, ma kwantyzację zbliżoną do 16-bitowej próbki cyfrowej.

Dither jako rozwiązanie

Ilustracja ditheringu używanego w przetwarzaniu obrazu.
Ilustracja ditheringu używanego w przetwarzaniu obrazu. Wprowadzono losowe odchylenie przed zredukowaniem palety tylko do 16 kolorów, co jest analogiczne do efektu ditheringu na sygnale audio.

Można sprawić, że szum kwantyzacji stanie się słyszalnie łagodny poprzez zastosowanie ditheringu . W tym celu do oryginalnego sygnału przed kwantyzacją dodawany jest szum. Optymalne wykorzystanie ditheringu powoduje, że błąd kwantyzacji jest niezależny od sygnału i umożliwia zachowanie informacji o sygnale poniżej najmniej znaczącego bitu systemu cyfrowego.

Algorytmy ditheringu często mają również opcję zastosowania pewnego rodzaju kształtowania szumu , który przesuwa częstotliwość większości szumu ditheringu do obszarów mniej słyszalnych dla ludzkich uszu, obniżając poziom szumu widoczny dla słuchacza.

Dither jest powszechnie stosowany podczas masteringu przed ostateczną redukcją głębi bitowej, a także na różnych etapach DSP .

Drżenie czasu Tim

Jednym z aspektów, który może pogorszyć wydajność systemu cyfrowego, jest jitter . Jest to zjawisko odchyleń w czasie od tego, co powinno być prawidłowym odstępem dyskretnych próbek zgodnie z częstotliwością próbkowania. Może to wynikać z niedokładności czasowych zegara cyfrowego. W idealnym przypadku zegar cyfrowy powinien generować impulsy czasowe w dokładnie regularnych odstępach czasu. Innymi źródłami fluktuacji w cyfrowych obwodach elektronicznych są fluktuacje indukowane danymi, w których jedna część strumienia cyfrowego wpływa na kolejną część, gdy przepływa przez system, oraz fluktuacje indukowane przez zasilanie, w których zakłócenia z zasilacza powodują nieprawidłowości w taktowaniu sygnały w zasilanych przez niego obwodach.

Dokładność systemu cyfrowego zależy od próbkowanych wartości amplitudy, ale jest również zależna od czasowej regularności tych wartości. Analogowe wersje tej zależności czasowej są znane jako błąd wysokości dźwięku i wow-and-flutter.

Okresowy jitter wytwarza szum modulacyjny i może być uważany za odpowiednik analogowego trzepotania. Przypadkowy jitter zmienia poziom szumów systemu cyfrowego. Wrażliwość konwertera na jitter zależy od konstrukcji konwertera. Wykazano, że losowy jitter wynoszący 5  ns może mieć znaczenie dla 16-bitowych systemów cyfrowych.

W 1998 roku Benjamin i Gannon badali słyszalność jittera za pomocą testów odsłuchowych. Odkryli, że najniższy słyszalny poziom jittera wynosił około 10 ns ( rms ). Było to na testowym sygnale sinusoidalnym 17 kHz . W przypadku muzyki żaden słuchacz nie znalazł słyszalnego jittera na poziomie niższym niż 20 ns. Artykuł Ashihary i in. (2005) podjęli próbę określenia progów wykrywania losowych wahań w sygnałach muzycznych. Ich metoda polegała na testach odsłuchowych ABX . Omawiając swoje wyniki, autorzy komentowali, że:

Jak dotąd rzeczywisty jitter w produktach konsumenckich wydaje się zbyt mały, aby można go było wykryć przynajmniej w przypadku odtwarzania sygnałów muzycznych. Nie jest jednak jasne, czy progi wykrywalności uzyskane w niniejszym badaniu rzeczywiście reprezentowałyby granicę rozdzielczości słuchowej, czy też byłyby ograniczone rozdzielczością sprzętu. Zniekształcenia spowodowane bardzo małym jitterem mogą być mniejsze niż zniekształcenia spowodowane nieliniową charakterystyką głośników. Ashihara i Kiryu [8] ocenili liniowość głośnika i słuchawek. Zgodnie z ich obserwacjami, słuchawki wydają się być bardziej preferowane do wytwarzania wystarczającego ciśnienia dźwięku w bębenkach usznych przy mniejszych zniekształceniach niż głośniki.

Przetwarzanie sygnałów

Często zdarza się, że po wstępnym nagraniu sygnał audio jest zmieniany w jakiś sposób, np. za pomocą kompresji , korekcji , opóźnień i pogłosu . W przypadku technologii analogowej ma to postać zewnętrznych komponentów sprzętowych , aw przypadku technologii cyfrowej to samo jest zwykle realizowane za pomocą wtyczek w cyfrowej stacji roboczej audio (DAW).

Porównanie analogowe i cyfrowe filtrowanie pokazy techniczne korzyści dla obu metod. Filtry cyfrowe są bardziej precyzyjne i elastyczne. Filtry analogowe są prostsze, mogą być bardziej wydajne i nie wprowadzają opóźnień.

Sprzęt analogowy

Ilustracja przesunięcia fazowego.
Przesunięcie fazowe: fala sinusoidalna w kolorze czerwonym została opóźniona w czasie równym kątowi , pokazana jako fala sinusoidalna w kolorze niebieskim.

Podczas zmiany sygnału za pomocą filtru, sygnał wyjściowy może różnić się w czasie od sygnału na wejściu, co jest mierzone jako jego odpowiedź fazowa . Wiele korektorów wykazuje to zachowanie, a wielkość przesunięcia fazowego różni się w pewnym wzorze i jest wyśrodkowana wokół regulowanego pasma. Chociaż efekt ten zmienia sygnał w sposób inny niż ścisła zmiana odpowiedzi częstotliwościowej, to zabarwienie może czasami mieć pozytywny wpływ na percepcję dźwięku sygnału audio.

Filtry cyfrowe

Ponieważ zaangażowane zmienne mogą być precyzyjnie określone w obliczeniach, filtry cyfrowe mogą obiektywnie działać lepiej niż komponenty analogowe. Inne przetwarzanie, takie jak opóźnienie i mieszanie, można wykonać dokładnie.

Filtry cyfrowe są również bardziej elastyczne. Na przykład liniowy korektor fazy nie wprowadza przesunięcia fazy zależnego od częstotliwości. Ten filtr może być zaimplementowany cyfrowo przy użyciu filtru o skończonej odpowiedzi impulsowej, ale nie ma praktycznej realizacji przy użyciu komponentów analogowych.

Praktyczną zaletą przetwarzania cyfrowego jest wygodniejsze przywoływanie ustawień. Parametry wtyczek mogą być przechowywane na komputerze, podczas gdy szczegóły parametrów na jednostce analogowej muszą być zapisane lub w inny sposób zarejestrowane, jeśli jednostka musi być ponownie użyta. Może to być kłopotliwe, gdy całe miksy muszą być przywoływane ręcznie za pomocą konsoli analogowej i zewnętrznego sprzętu. Podczas pracy cyfrowej wszystkie parametry można po prostu zapisać w pliku projektu DAW i natychmiast przywołać. Większość nowoczesnych profesjonalnych programów DAW przetwarza również wtyczki w czasie rzeczywistym, co oznacza, że ​​przetwarzanie może być w dużej mierze nieniszczące aż do ostatecznego zmiksowania.

Modelowanie analogowe

Obecnie istnieje wiele wtyczek, które zawierają modelowanie analogowe. Są inżynierowie dźwięku, którzy je popierają i czują, że porównują dźwięk na równi z procesami analogowymi, które naśladują. Modelowanie analogowe ma pewne zalety w porównaniu z ich analogowymi odpowiednikami, takie jak możliwość usuwania szumu z algorytmów i modyfikacji w celu uelastycznienia parametrów. Z drugiej strony, inni inżynierowie również uważają, że modelowanie jest nadal gorsze od oryginalnych komponentów zaburtowych i nadal wolą mieszać „niestandardowe”.

Jakość dźwięku

Ocena subiektywna

Subiektywna ocena ma na celu zmierzenie, jak dobrze dany komponent audio działa według ludzkiego ucha. Najczęstszą formą testu subiektywnego jest test odsłuchowy, w którym komponent audio jest po prostu używany w kontekście, do którego został zaprojektowany. Ten test jest popularny wśród recenzentów sprzętu hi-fi, w których element jest używany przez pewien czas przez recenzenta, który następnie opisuje wydajność w kategoriach subiektywnych. Typowe opisy dotyczą tego, czy komponent ma jasny lub przytłumiony dźwięk, lub jak dobrze komponent potrafi zaprezentować obraz przestrzenny .

Inny rodzaj subiektywnego testu jest przeprowadzany w bardziej kontrolowanych warunkach i próbuje usunąć ewentualne uprzedzenia z testów odsłuchowych. Tego rodzaju testy są wykonywane z komponentem ukrytym przed słuchaczem i nazywane są testami ślepymi . Aby zapobiec ewentualnej stronniczości osoby przeprowadzającej test, można przeprowadzić ślepy test, tak aby ta osoba również nie wiedziała o testowanym komponencie. Ten rodzaj testu nazywa się testem podwójnie ślepej próby. Ten rodzaj testu jest często używany do oceny wydajności stratnej kompresji dźwięku .

Krytycy testów podwójnie ślepych uważają, że nie pozwalają one słuchaczowi poczuć się w pełni zrelaksowanym podczas oceny komponentu systemu i dlatego nie mogą ocenić różnic między różnymi komponentami, jak również w testach wzrokowych (nie ślepych). Ci, którzy stosują metodę podwójnie ślepej próby, mogą próbować zmniejszyć stres słuchacza, dając pewną ilość czasu na szkolenie słuchacza.

Wczesne nagrania cyfrowe

Wczesne cyfrowe urządzenia audio miały rozczarowujące wyniki, a przetworniki cyfrowe wprowadzały błędy, które ucho mogło wykryć. Wytwórnie płytowe wydały swoje pierwsze płyty LP oparte na cyfrowych masterach audio pod koniec lat 70-tych. Płyty CD stały się dostępne na początku lat 80-tych. W tamtych czasach analogowe odtwarzanie dźwięku było dojrzałą technologią .

Wczesne nagrania cyfrowe wydane na CD spotkały się z mieszaną krytyką. W porównaniu z płytą winylową zauważono, że CD znacznie lepiej ujawnia akustykę i szum otoczenia otoczenia, w którym nagrywano. Z tego powodu techniki nagrywania opracowane dla płyt analogowych, np. rozmieszczenie mikrofonów, musiały zostać dostosowane do nowego formatu cyfrowego.

Niektóre nagrania analogowe zostały zremasterowane do formatów cyfrowych. Nagrania analogowe wykonane w naturalnej akustyce sal koncertowych zwykle korzystały z remasteringu. Proces remasteringu był czasami krytykowany za niewłaściwą obsługę. Kiedy oryginalne nagranie analogowe było dość jasne, remaster czasami skutkował nienaturalnym podkreśleniem wysokich tonów.

Super Audio CD i DVD-Audio

Format Super Audio CD (SACD) został stworzony przez Sony i Philips , którzy byli również twórcami wcześniejszego standardowego formatu audio CD. SACD wykorzystuje Direct Stream Digital (DSD) oparty na modulacji delta-sigma . Stosując tę ​​technikę, dane audio są przechowywane jako sekwencja wartości o stałej amplitudzie (tj. 1-bitowych) z częstotliwością próbkowania 2,884 MHz, co stanowi 64-krotność częstotliwości próbkowania 44,1 kHz stosowanej w płytach CD. W dowolnym momencie amplituda oryginalnego sygnału analogowego jest reprezentowana przez względną przewagę jedynek nad zerami w strumieniu danych. Ten cyfrowy strumień danych można zatem przekształcić w analogowy, przepuszczając go przez analogowy filtr dolnoprzepustowy.

Format DVD-Audio wykorzystuje standardowy, liniowy PCM ze zmienną częstotliwością próbkowania i głębią bitową, co najmniej odpowiada, a zwykle znacznie przewyższa standardowe CD Audio (16 bitów, 44,1 kHz).

W popularnej prasie Hi-Fi sugerowano, że liniowy PCM „wywołuje u ludzi reakcję stresową” i że DSD „jest jedynym cyfrowym systemem zapisu, który [...] nie daje takich efektów”. Twierdzenie to wydaje się pochodzić z artykułu dr Johna Diamonda z 1980 roku . Sedno twierdzenia, że ​​nagrania PCM (jedyna dostępna w tamtym czasie technika zapisu cyfrowego) wywoływały reakcję stresową, opierało się na wykorzystaniu pseudonaukowej techniki kinezjologii stosowanej , na przykład dr Diamond podczas prezentacji na 66. Konwencji AES (1980) z tym samym tytuł. Diamond używał wcześniej podobnej techniki, aby zademonstrować, że muzyka rockowa (w przeciwieństwie do klasycznej) jest szkodliwa dla zdrowia ze względu na obecność „zatrzymanego rytmu anapetycznego”. Twierdzenia Diamonda dotyczące dźwięku cyfrowego zostały podjęte przez Marka Levinsona , który stwierdził, że podczas gdy nagrania PCM wywołały reakcję na stres, nagrania DSD nie. Jednak test subiektywny z podwójnie ślepą próbą między liniowym PCM o wysokiej rozdzielczości (DVD-Audio) a DSD nie wykazał statystycznie istotnej różnicy. Słuchacze biorący udział w tym teście zauważyli duże trudności w usłyszeniu różnic między tymi dwoma formatami.

Preferencje analogowe

Winylu ożywienie jest w części z powodu niedoskonałości analogowe audio, który dodaje: „ciepło”. Niektórzy słuchacze wolą taki dźwięk od CD. Założyciel i redaktor czasopisma The Absolute Sound, Harry Pearson, mówi, że „płyty LP są zdecydowanie bardziej muzyczne. Płyty CD wysysają duszę z muzyki. Emocjonalne zaangażowanie znika”. Producent dubowy Adrian Sherwood ma podobne odczucia co do analogowej kasety magnetofonowej, którą preferuje ze względu na jej „cieplejszy” dźwięk.

Zwolennicy formatu cyfrowego wskazują na wyniki ślepych testów, które pokazują wysoką wydajność możliwą w przypadku rejestratorów cyfrowych. Twierdzenie jest takie, że „dźwięk analogowy” jest bardziej produktem niedokładności formatu analogowego niż cokolwiek innego. Jednym z pierwszych i największych zwolenników cyfrowego audio był klasyczny dyrygent Herbert von Karajan , który powiedział, że nagrywanie cyfrowe jest „zdecydowanie lepsze od wszelkich innych znanych nam form nagrywania”. Był także pionierem nieudanej cyfrowej kasety kompaktowej i poprowadził pierwsze nagranie, jakie kiedykolwiek ukazało się komercyjnie na CD: Eine Alpensinfonie Richarda Straussa .

Systemy hybrydowe

Podczas gdy słowa audio analogowe zwykle oznaczają, że dźwięk jest opisywany przy użyciu podejścia ciągłego sygnału, a słowa audio cyfrowy sugerują podejście dyskretne, istnieją metody kodowania audio, które mieszczą się gdzieś pomiędzy tymi dwoma. Rzeczywiście, wszystkie systemy analogowe wykazują dyskretne (skwantowane) zachowanie w skali mikroskopowej. Chociaż płyty winylowe i popularne kasety kompaktowe są nośnikami analogowymi i wykorzystują quasi-liniowe fizyczne metody kodowania (np. głębokość spiralnego rowka, natężenie pola magnetycznego taśmy ) bez zauważalnej kwantyzacji lub aliasingu, istnieją analogowe systemy nieliniowe, które wykazują efekty podobne do tych, które występują na cyfrowe, takie jak aliasing i „twarde” dynamiczne podłogi (np. dźwięk hi-fi z modulacją częstotliwości na taśmach wideo, sygnały zakodowane w PWM ).

Zobacz też

Bibliografia

Bibliografia

Linki zewnętrzne