Цифровий звук простими словами: Як все працює

Що таке цифровий звук і як він працює?

Якщо ви слухаєте музику на смартфоні, дивитеся фільм на ноутбуці або спілкуєтеся в Zoom, ви маєте справу з цифровим звуком. Але що це насправді? Простими словами, цифровий звук — це звукова інформація, перетворена на мову, яку розуміє комп’ютер, тобто на послідовність чисел (нулів та одиниць). Цей процес дозволяє зберігати, копіювати, редагувати та відтворювати звук на будь-яких цифрових пристроях без втрати якості.

Як аналоговий звук стає цифровим?

Звук, який ми чуємо у природі (голос, музичні інструменти, шум дощу), є аналоговим. Він являє собою неперервну звукову хвилю з безкінечною кількістю значень гучності та частоти. Уявіть її як плавний схил пагорба.

Комп'ютер не може зберегти таку нескінченну плавність. Тому для перетворення аналогового звуку в цифровий використовується процес, що називається аналого-цифрове перетворення (АЦП). Він складається з двох ключових етапів.

1. Дискретизація (Sampling)

На цьому етапі система ніби «фотографує» аналогову хвилю тисячі разів на секунду. Кожен такий «знімок» фіксує рівень її амплітуди (гучності) у конкретний момент часу.

Частота дискретизації (Sample Rate) — це кількість таких «знімків» за секунду. Вона вимірюється в герцах (Гц) або кілогерцах (кГц). Наприклад, стандартна якість аудіо на CD має частоту дискретизації 44.1 кГц, що означає 44 100 вимірювань щосекунди. Чим вища частота дискретизації, тим точніше відтворюється форма оригінальної звукової хвилі.

2. Квантування (Quantization)

Після того як ми зробили «знімок», його гучність потрібно описати числом. Оскільки комп'ютер має обмежений набір значень, виміряна амплітуда заокруглюється до найближчого доступного рівня. Цей процес і називається квантуванням.

Розрядність (Bit Depth) — це кількість інформації, що зберігається в кожному «знімку». Вона визначає, скільки доступних рівнів гучності ми можемо використати для опису звуку.

Уявіть, що ви міряєте висоту схилу лінійкою. Якщо на лінійці є поділки лише для цілих сантиметрів (низька розрядність), вимірювання будуть грубими. А якщо є поділки для міліметрів (висока розрядність) — набагато точнішими.

Найпоширеніші значення розрядності — 16 біт (для CD, понад 65 тисяч рівнів гучності) та 24 біти (для професійного запису, понад 16 мільйонів рівнів).

Частота дискретизації: що вона робить насправді?

Коли мова заходить про якість звуку, часто проводять хибну аналогію з відео: «частота дискретизації — це як частота кадрів». Багато хто думає, що вища частота дискретизації робить звукову хвилю «плавнішою». Це не так.

Головна і, по суті, єдина функція частоти дискретизації — визначати максимальну частоту звуку, яку можна записати та відтворити. Тут діє теорема Найквіста-Шеннона: щоб точно записати звук певної частоти, частота дискретизації має бути щонайменше вдвічі вищою.

Людське вухо чує звуки до 20 кГц, отже, теоретичного мінімуму в 40 кГц було б достатньо. Стандарт 44.1 кГц для CD обрали з невеликим запасом.

Популярні стандарти та їхнє призначення:

  • 44.1 кГц: Стандарт для Audio CD та стрімінгових сервісів (Spotify, Apple Music).

  • 48 кГц: Стандарт для аудіо у відеовиробництві (фільми, телебачення). Сьогодні це найуніверсальніший вибір для більшості проєктів.

  • 96 кГц та 192 кГц: Використовуються для аудіо високої роздільної здатності (High-Resolution Audio). Вони корисні в саунд-дизайні: при сильному сповільненні або зниженні тону семплу, записаного з високою частотою, звук залишається багатим і детальним.

Практична порада: Завжди працюйте у 48 кГц. Це золота середина між якістю та навантаженням на систему. Ви завжди зможете без втрат конвертувати проєкт у 44.1 кГц, а от зробити навпаки без погіршення якості неможливо.

Розрядність: чому 24 біти краще для запису?

Якщо частота дискретизації — це про те, як часто ми вимірюємо хвилю, то розрядність — це про те, наскільки точно ми це робимо. Головна практична функція розрядності — встановити динамічний діапазон та рівень цифрового шуму.

Динамічний діапазон — це різниця між найтихішим та найгучнішим звуком, який можна записати без спотворень.

  • 16 біт (стандарт CD): 65 536 рівнів гучності, динамічний діапазон ~96 дБ.

  • 24 біти (професійний стандарт): 16 777 216 рівнів гучності, динамічний діапазон ~144 дБ.

Звідки береться цифровий шум?

Процес заокруглення реальної гучності до найближчого доступного рівня (квантування) створює мікроскопічні похибки. Ми чуємо їх як дуже тихе шипіння — шум квантування. Чим вища розрядність, тим цей рівень шуму нижчий. Щоб зробити цей шум менш помітним при конвертації (наприклад, з 24 в 16 біт), застосовують дитеринг (dithering) — додавання ледь чутного «правильного» шуму для маскування артефактів.

Практична перевага 24 біт: Headroom

Головна перевага 24-бітного запису — це величезний запас простору (headroom). В епоху 16 біт звукоінженерам доводилося записувати сигнал якомога голосніше, щоб він був значно вищим за рівень шуму.

Із 24-бітною розрядністю рівень шуму настільки низький, що ви можете спокійно записувати сигнал з піками на рівні -15 дБ, не боячись перевантаження (кліпінгу). Коли ви потім піднімете гучність, жодного помітного шуму не з'явиться.

Чи є різниця на слух у фінальній пісні? У переважній більшості випадків — ні. Сучасна музика сильно компресується, і її динамічний діапазон рідко перевищує 15 дБ, для чого вистачає можливостей 16-бітного формату. Перевага 24 біт розкривається саме в процесі роботи над треком, а не для кінцевого слухача.

Підсумок: найкраща комбінація для ваших проєктів

Враховуючи все вищесказане, ось проста й ефективна формула для роботи зі звуком:

  • Для запису та роботи в проєкті (міксування, обробка): Використовуйте 48 кГц та 24 біти. Це ідеальний компроміс між якістю, розміром файлів та гнучкістю.

  • Для фінального експорту на CD та більшість стрімінгових платформ: Конвертуйте у 44.1 кГц та 16 біт. Це стандарт, який приймають усі сервіси.

Розуміння цих базових принципів дозволить вам приймати правильні технічні рішення та зосередитися на головному — творчості. Вдалих записів!

Next
Next

Що таке Мастеринг?