Файлы с оцифрованным звуком (digitized sound files) — звуковые файлы, в которых исходная непрерывная («аналоговая») форма сигнала записана в виде последовательности коротких дискретных значений амплитуд звукового сигнала, измеренных («выбранных») через одинаковые промежутки времени и имеющих между собой весьма малый интервал. Процесс замены непрерывного сигнала последовательностью его значений называют дискретизацией (sampling), а такую форму записи — импульсно-кодовой (pulse code). Аппаратная реализация обработки оцифрованного звука состоит в том, что аналого-цифрового преобразователь (АЦП) преобразует аналоговый сигнал в множество цифровых замеров, а при воспроизведении цифро-аналоговый преобразователь (ЦАП) осуществляет обратный процесс — преобразование цифрового сигнала в аналоговый. Файлы с оцифрованным звуком бывают двух видов: с заголовком и без заголовка.
Основные понятия и термины, связанные с оцифровкой звука:
Выборка, отсчет звукового сигнала (sample) — дискретное («мгновенное») значение, соответствующее минимальному фрагменту исходного звукового сигнала, который подается на вход аналого-цифрового преобразователя (АЦП) при записи звука или получается с использованием цифро-аналогового преобразователя (ЦАП) при его воспроизведении. Выборка характеризует амплитуду звукового сигнала, обычно представляет собой целое число (8 или 16 бит). Выборка может производиться по одному каналу (моно), двум (стерео) или большему числу каналов. Процесс разделения сигнала на выборки называется квантованием (quantizing).
Разрядность дискретизации (sample size) — величина, определяющая количество бит на один канал. Разрядность дискретизации определяет точность замера и качество записи звука. В частности, она влияет на величину отношения сигнала к шуму (signal-to-noise-ratio). Чем выше разрядность дискретизации, тем выше качество записи и воспроизведения звука. Однако при увеличении ее значения растет и объем записи.
Частота дискретизации (sampling rate) — величина, которая определяет, сколько раз в секунду производится считывание выборок из аналогового сигнала. При цифровой записи звуков частота дискретизации измеряется в герцах и килогерцах. Чем выше частота дискретизации, тем выше качество звука. Однако соответственно увеличивается и объем записи. Для определения оптимальной частоты и разрядности необходимо найти компромисс между звуковым качеством и размером данных. В соответствии с Теоремой Котельникова, в сигнале, измеряемом с частотой дискретизации fд, не должны содержаться гармонические компоненты с частотами выше fд/2, иначе цифровое представление сигнала не будет адекватно аналоговому. Частоту fн = fд/2 называют частотой Найквиста. Это предельная частота, выше которой во входном сигнале не должно быть спектральных компонентов. Если в аналоговом сигнале присутствуют частоты выше fн, возникает эффект наложения спектров (aliasing). Поэтому полосу частот входных сигналов необходимо ограничить фильтром низких частот (ФНЧ), который в этом случае называется anti-aliasing фильтром. На практике максимально допустимая частота сигнала определяется частотой подавления ФНЧ (граничная частота, с которой начинается полоса подавления). Поскольку амплитудная характеристика фильтра за частотой среза спадает до нуля не перпендикулярно, а с некоторым наклоном, fд и частота среза должны разниться более чем вдвое.
Выборка, отсчет звукового сигнала (sample) — дискретное («мгновенное») значение, соответствующее минимальному фрагменту исходного звукового сигнала, который подается на вход аналого-цифрового преобразователя (АЦП) при записи звука или получается с использованием цифро-аналогового преобразователя (ЦАП) при его воспроизведении. Выборка характеризует амплитуду звукового сигнала, обычно представляет собой целое число (8 или 16 бит). Выборка может производиться по одному каналу (моно), двум (стерео) или большему числу каналов. Процесс разделения сигнала на выборки называется квантованием (quantizing).
Разрядность дискретизации (sample size) — величина, определяющая количество бит на один канал. Разрядность дискретизации определяет точность замера и качество записи звука. В частности, она влияет на величину отношения сигнала к шуму (signal-to-noise-ratio). Чем выше разрядность дискретизации, тем выше качество записи и воспроизведения звука. Однако при увеличении ее значения растет и объем записи.
Частота дискретизации (sampling rate) — величина, которая определяет, сколько раз в секунду производится считывание выборок из аналогового сигнала. При цифровой записи звуков частота дискретизации измеряется в герцах и килогерцах. Чем выше частота дискретизации, тем выше качество звука. Однако соответственно увеличивается и объем записи. Для определения оптимальной частоты и разрядности необходимо найти компромисс между звуковым качеством и размером данных. В соответствии с Теоремой Котельникова, в сигнале, измеряемом с частотой дискретизации fд, не должны содержаться гармонические компоненты с частотами выше fд/2, иначе цифровое представление сигнала не будет адекватно аналоговому. Частоту fн = fд/2 называют частотой Найквиста. Это предельная частота, выше которой во входном сигнале не должно быть спектральных компонентов. Если в аналоговом сигнале присутствуют частоты выше fн, возникает эффект наложения спектров (aliasing). Поэтому полосу частот входных сигналов необходимо ограничить фильтром низких частот (ФНЧ), который в этом случае называется anti-aliasing фильтром. На практике максимально допустимая частота сигнала определяется частотой подавления ФНЧ (граничная частота, с которой начинается полоса подавления). Поскольку амплитудная характеристика фильтра за частотой среза спадает до нуля не перпендикулярно, а с некоторым наклоном, fд и частота среза должны разниться более чем вдвое.
Наиболее часто встречающиеся частоты дискретизации (Значение fд, Гц — Область применения и/или принцип выбора значения):
5500 — 1/4 частоты дискретизации ПК Macintosh.
7333 — 1/3 частоты дискретизации ПК Macintosh.
8000 — используется для ИКМ-канала телефонного сигнала с A-, мю-законами компандирования (Рекомендации G.711 и G.712 МККТТ). Рабочие станции NeXT используют частоту дискретизации 8012, 82 Гц.
11025 — 1/2 частоты дискретизации ПК Macintosh, 1/4 частоты дискретизации компакт-диска (CD).
16000 — используется при сжатии в соответствии с Рекомендацией МККТТ G.722
18900 — стандарт CD-ROM/XA.
22050 — 1/2 частоты дискретизации компакт-диска, частота дискретизации Macintosh (последняя в действительности 22254, 54 Гц).
31250 — цифровая запись звука в видеомагнитофонах системы Video-8 (PAL)
31500 — цифровая запись звука в видеомагнитофонах системы Video-8 (NTSC).
32000 — цифровое радиовещание, цифровые магнитофоны DAT (Digital Audio Tape).
34629 — звуковой канал телевидения.
37800 — стандарт CD-ROM/XA (высокое качество).
44056 — ИКМ-приставка к видеомагнитофону NTSC для записи звука.
44100 — частота дискретизации компакт-диска, цифровых магнитофонов DAT, ИКМ-приставки к видеомагнитофону PAL/SECAM для записи звука.
48000 — цифровые магнитофоны DAT.
5500 — 1/4 частоты дискретизации ПК Macintosh.
7333 — 1/3 частоты дискретизации ПК Macintosh.
8000 — используется для ИКМ-канала телефонного сигнала с A-, мю-законами компандирования (Рекомендации G.711 и G.712 МККТТ). Рабочие станции NeXT используют частоту дискретизации 8012, 82 Гц.
11025 — 1/2 частоты дискретизации ПК Macintosh, 1/4 частоты дискретизации компакт-диска (CD).
16000 — используется при сжатии в соответствии с Рекомендацией МККТТ G.722
18900 — стандарт CD-ROM/XA.
22050 — 1/2 частоты дискретизации компакт-диска, частота дискретизации Macintosh (последняя в действительности 22254, 54 Гц).
31250 — цифровая запись звука в видеомагнитофонах системы Video-8 (PAL)
31500 — цифровая запись звука в видеомагнитофонах системы Video-8 (NTSC).
32000 — цифровое радиовещание, цифровые магнитофоны DAT (Digital Audio Tape).
34629 — звуковой канал телевидения.
37800 — стандарт CD-ROM/XA (высокое качество).
44056 — ИКМ-приставка к видеомагнитофону NTSC для записи звука.
44100 — частота дискретизации компакт-диска, цифровых магнитофонов DAT, ИКМ-приставки к видеомагнитофону PAL/SECAM для записи звука.
48000 — цифровые магнитофоны DAT.
Некоторые форматы звуковых файлов поддерживают произвольную частоту дискретизации (например, VOC-файлы в диапазоне от 5000 до 44100 Гц); другие — только определенные частоты дискретизации (WAV-файлы могут быть оцифрованы с частотами 11025, 22050, 44100 Гц). Поэтому конвертирование (преобразование) файла одного формата в другой не всегда возможно. Наиболее гибкое средство преобразования звуковых файлов различных форматов — программа SOX (Sound Exchange), которая допускает кроме конвертирования введение различных эффектов (добавление эха, фильтрацию, изменение частоты дискретизации).
Файлы с заголовком (files with heading) — один из двух видов файлов с оцифрованным звуком. В заголовке указываются параметры, которые характеризуют оцифрованный звук, включая: частоту дискретизации; количество битов на отсчет (8 или 16); количество каналов — моно (1) или стерео (2); ASCII-символы, описывающие тип файла; длину записанных данных в байтах; номер версии формата; метод компрессии; величину смещения блока данных относительно начала файла.
Некоторые звуковые редакторы (GoldWave, CoolEdit) позволяют импортировать файлы с оцифрованным звуком без заголовка. При этом запрашиваются: частота дискретизации, количество битов на отсчет, количество каналов. Затем информацию можно экспортировать (сохранить) в файле с заголовком (.wav, .voc). Заголовок .voc можно дополнить и утилитой VOCHDR, а полученный файл конвертировать в .wav утилитой VOC2WAV (VOCHDR и VOC2WAV входят в поставку Sound Blaster 16).
Перечень и области применения наиболее распространенных форматов звуковых файлов с заголовком (Расширение — Краткие сведения о форматах):
*.aiff, *.aif — формат AIF (AIFF, Audio Interchange File Format), распространен в системах Apple Macintosh и Silicon Graphics; заключает в себе сочетание MOD и WAV. Формат AIFC (AIFF-С, Audio Interchange File Format-Compressed) — AIFF с заданными параметрами сжатия (компрессии); используется в ПК фирмы Apple.
*.au*.snd — формат AU, предназначен для работы со звуком в рабочих системах SUN, NeXT, DEC, Linux, FreeBSD; обеспечивает экономию памяти, нашел широкое распространение в Интернете. Структура файла проще, чем wav, где указан метод кодирования данных. Наиболее часто используются параметры m-Law 8 кГц – моно, но существуют 16-битные стереофайлы с частотами 22050 и 44100 Гц. SND бывает двух видов: один — AU для SUN и NeXT; другой — восьмибитный монофайл для РС и ПК фирмы Apple с различной частотой дискретизации.
*.avr — предложен фирмой Audio Visual Research (заголовок — 128 байтов).
*.hcom — ПК фирмы Apple.
*.iff — формат IFF (Interchange File Format), имеет сходство с RIFF (Resource Interchange File Format), являющимся универсальным для записи любых структурированных данных. Основное отличие заключается в поддержке программно-сэмплерной эмуляции музыкальных инструментов. Звук в файле делится на две части: то, что должно звучать вначале, и элемент того, что идет за началом. В результате вторая часть звукового фрагмента повторяется за начальной столько раз, сколько нужно пользователю и нота может звучать сколь угодно долго. IFF используется в системах типа IFF/8SVX на компьютерах фирмы Amiga.
*.mp3 — формат MР3, в котором использованы параметры сжатия, имеющие сходство с форматом jpeg для изображений. Коэффициент сжатия составляет 10-12, однако специалистами он считается сложным («навороченным») и не обеспечивающим высокое качество звука. Основным недостатком является эффект контурности звука. При отсутствии строгих требований к качеству звучания его потери считаются неощутимыми.
*.nsp — формат для записи на аппаратуре CSL Model 4300B (фирма Kay Elemetrics).
*.sf — IRCAM Sound Files; программы CSound, MixView.
*.smp — программа SampleVision (фирма Turtle Beach).
*.snd — компьютеры Sun, NeXT.
*.voc — восьмибитный моноформат VOC (Voice File) семейства звуковых карт SoundBlaster фирмы Creative Labs; используется в старых немузыкальных программах. HСОМ — то же самое, что и VOC (8 бит, моно), но для ПК фирмы Apple Macintosh.
*.vqf — формат записи звуковых файлов VQF — альтернативы МР3. К недостаткам VQF относят длительность кодирования и малое число бесплатных программ-приложений, что стало причиной его незначительного распространения.
*.wav — формат WAVE (Waveform Audio File), разработанный фирмой Microsoft; один из простейших для записи и хранения дискретных данных. WAVE относится к одному из вариантов файлов семейства RIFF (Resource Interchange File Format) и является жестко структурированным. В заголовке помимо обычных значений (разрядность, уровни громкости) в WAV могут быть указаны и другие параметры (метки позиций для синхронизации, общее количество дискретных значений, порядок воспроизведения частей звукового файла, текстовая информация). PCM WAVE — версия WAVE формата данных PCM.
*.aiff, *.aif — формат AIF (AIFF, Audio Interchange File Format), распространен в системах Apple Macintosh и Silicon Graphics; заключает в себе сочетание MOD и WAV. Формат AIFC (AIFF-С, Audio Interchange File Format-Compressed) — AIFF с заданными параметрами сжатия (компрессии); используется в ПК фирмы Apple.
*.au*.snd — формат AU, предназначен для работы со звуком в рабочих системах SUN, NeXT, DEC, Linux, FreeBSD; обеспечивает экономию памяти, нашел широкое распространение в Интернете. Структура файла проще, чем wav, где указан метод кодирования данных. Наиболее часто используются параметры m-Law 8 кГц – моно, но существуют 16-битные стереофайлы с частотами 22050 и 44100 Гц. SND бывает двух видов: один — AU для SUN и NeXT; другой — восьмибитный монофайл для РС и ПК фирмы Apple с различной частотой дискретизации.
*.avr — предложен фирмой Audio Visual Research (заголовок — 128 байтов).
*.hcom — ПК фирмы Apple.
*.iff — формат IFF (Interchange File Format), имеет сходство с RIFF (Resource Interchange File Format), являющимся универсальным для записи любых структурированных данных. Основное отличие заключается в поддержке программно-сэмплерной эмуляции музыкальных инструментов. Звук в файле делится на две части: то, что должно звучать вначале, и элемент того, что идет за началом. В результате вторая часть звукового фрагмента повторяется за начальной столько раз, сколько нужно пользователю и нота может звучать сколь угодно долго. IFF используется в системах типа IFF/8SVX на компьютерах фирмы Amiga.
*.mp3 — формат MР3, в котором использованы параметры сжатия, имеющие сходство с форматом jpeg для изображений. Коэффициент сжатия составляет 10-12, однако специалистами он считается сложным («навороченным») и не обеспечивающим высокое качество звука. Основным недостатком является эффект контурности звука. При отсутствии строгих требований к качеству звучания его потери считаются неощутимыми.
*.nsp — формат для записи на аппаратуре CSL Model 4300B (фирма Kay Elemetrics).
*.sf — IRCAM Sound Files; программы CSound, MixView.
*.smp — программа SampleVision (фирма Turtle Beach).
*.snd — компьютеры Sun, NeXT.
*.voc — восьмибитный моноформат VOC (Voice File) семейства звуковых карт SoundBlaster фирмы Creative Labs; используется в старых немузыкальных программах. HСОМ — то же самое, что и VOC (8 бит, моно), но для ПК фирмы Apple Macintosh.
*.vqf — формат записи звуковых файлов VQF — альтернативы МР3. К недостаткам VQF относят длительность кодирования и малое число бесплатных программ-приложений, что стало причиной его незначительного распространения.
*.wav — формат WAVE (Waveform Audio File), разработанный фирмой Microsoft; один из простейших для записи и хранения дискретных данных. WAVE относится к одному из вариантов файлов семейства RIFF (Resource Interchange File Format) и является жестко структурированным. В заголовке помимо обычных значений (разрядность, уровни громкости) в WAV могут быть указаны и другие параметры (метки позиций для синхронизации, общее количество дискретных значений, порядок воспроизведения частей звукового файла, текстовая информация). PCM WAVE — версия WAVE формата данных PCM.
Перечень и области применения наиболее распространенных форматов звуковых файлов без заголовка (Расширение — Краткие сведения о форматах):
*.pcm — PCM (Pulse Code Modulation — буквально Импульсно-кодовая модуляция, ИКМ). Хотя файлы с таким расширением встречаются редко (в основном на аудио-CD), принцип импульсно-кодовой модуляции характерен для всех звуковых файлов. Метод записи и хранения аудиоинформации в формате PCM неэкономный, однако объемы современных устройств внешней памяти (в том числе винчестеров и оптических дисков) позволяют его использовать несмотря на связанные с этим потери, которые могут составлять десятки мегабайт.
*.pcm — PCM (Pulse Code Modulation — буквально Импульсно-кодовая модуляция, ИКМ). Хотя файлы с таким расширением встречаются редко (в основном на аудио-CD), принцип импульсно-кодовой модуляции характерен для всех звуковых файлов. Метод записи и хранения аудиоинформации в формате PCM неэкономный, однако объемы современных устройств внешней памяти (в том числе винчестеров и оптических дисков) позволяют его использовать несмотря на связанные с этим потери, которые могут составлять десятки мегабайт.
*.dpcm — DPCM (Difference Pulse Code Modulation) — вариант формата PCM, в котором с целью повышения экономии хранения звуковых данных на диске использован метод сжатия записи, получивший наименования «разностного РСМ». Эта схема сжатия с фиксированной скоростью преобразовывает последовательность измерений, сохраняя только разницу между последующим и предыдущим значениями сигналов. Сохранение дискового пространства происходит за счет того, что значение разности меньше самих измерений.
*.adpcm — ADPCM (Adaptive DPCM, адаптивный DPCM) — формат DPCM, дополненный использованием коэффициента масштабируемости, что обусловлено требованием исключения искажений звука, вызванных ошибками измерения разности амплитуд сигналов, которые связаны со значительными перепадами громкости отдельных составляющих звука.
*.sb — signed byte (байт со знаком); по умолчанию 8000 Гц, моно.
*.sw — signed word (слово со знаком); по умолчанию 8000 Гц, моно.
*.ub — unsigned byte (байт без знака); по умолчанию 8000 Гц, моно.
*.ul — UL, стандартный формат U-Law (мю-закон). По умолчанию 8 кГц, 8 бит, моно.
*.uw — Unsigned word (слово без знака); по умолчанию 8000 Гц, моно.
*.adpcm — ADPCM (Adaptive DPCM, адаптивный DPCM) — формат DPCM, дополненный использованием коэффициента масштабируемости, что обусловлено требованием исключения искажений звука, вызванных ошибками измерения разности амплитуд сигналов, которые связаны со значительными перепадами громкости отдельных составляющих звука.
*.sb — signed byte (байт со знаком); по умолчанию 8000 Гц, моно.
*.sw — signed word (слово со знаком); по умолчанию 8000 Гц, моно.
*.ub — unsigned byte (байт без знака); по умолчанию 8000 Гц, моно.
*.ul — UL, стандартный формат U-Law (мю-закон). По умолчанию 8 кГц, 8 бит, моно.
*.uw — Unsigned word (слово без знака); по умолчанию 8000 Гц, моно.