FAQ - по audio

**alancor** · 26 февраля, 2008

Помещаю сюда свою кратенькую статейку в целях небольшого познания в резке и соединении звуковых вайлов (в качестве за пример беру*.mp3). Я сторонник того, чтобы не гнаться за дешёвым софтом и уж тем паче очень простым, как для первокласников - ИМХО.

А потому и хочу предоставить свой вариант склеивания муз. файлов по средствам довольно серьёзной программы о которой конечно же слышали или пользовались. Не всё так сложно на первый взгляд, как кажется. Буквально за 5-ть шагов в редактировании Вы сможете сделать любой склеенный трек из кусков музыкальных файлов, также там будет затронут момент резки небольшого отрезка файла не запуская программу по несколько раз, как это было оговорено в предыдущих постах.

Итак, расслабтесь, наберитесь терпения, выдержки и немного уверенности в движении своих рук. Комментировать много не стану, да даже вообще не буду, потому, как уже это всё сделал на самих скринах. Там я в полной мере показал, что и как надо делать с файлом, чтобы добиться нужного результата. Во всяком случае, это самая простейшая операция в этой программе, как склеивание и резка музыкального файла, по сравнению с теми возможностями, которые в ней предоставлены. Я и сам ещё многое не пробовал, пока хватает то, что именно меня заинтересовало в ней. Ну ладно, поехали

=========================================================

Рис. 1

Рис. 2

Рис. 3

Рис. 4

Рис. 5

Рис. 6

Рис. 7

Рис. 8

Рис. 9

Рис. 10

Рис. 11

Рис. 12

Рис. 13

=====================================================

Ну вот, как бы такое вот небольшое справочное пособие для пользователей ПК!

Удачи всем!

Изменено 2 ноября, 2008 пользователем alancor

**alancor** · 7 марта, 2008

FAQ - Aудио.

Естественно, что речь здесь пойдёт о всевозможной информации про AUDIO. Всё что мне удастся увидеть в мировой сети про данную тему, то сразу же буду помещать сюда. Также будет создан топик "Статьи для FAQ-a", где пользователи могут принять своё участие, если у них есть интересные решения, информация, заметки по данной теме. Всё самое необходимое и интересное, что должен знать каждый заинтересованный, будет помещено в данном FAQ-e. Очень буду признателен за всяческую помощь. С уважением!

Итак, первая статья:

Авторcкие права принадлежат: дворник

===============================

С аббревиатурой "MP3" мы сталкиваемся сегодня очень часто. Пользователи компьютера, любители музыки и многие другие встречаются сегодня с этим обозначением и на полках магазинов, и на страницах журналов. Технология MP3, бывшая когда-то лишь малоизвестной инновацией, постучалась уже во многие дома либо через Интернет, либо в виде электронной аудио продукции. Сегодня MP3 - это, пожалуй, самый распространенный, доступный и известный формат хранения музыки в электронном виде. А благодаря все более расширяющемуся в последнее время внедрению MP3 в бытовую технику, эта замечательная технология становится еще более используемой и распространенной.

Широкую известность MP3 получил вполне заслуженно, однако эта известность сыграла для MP3 и негативную роль: многие скептически настроенные пользователи расценивают широкую известность как ширпотреб, а ширпотреб - как второсортность. Очень жаль, но зачастую даже вполне сведущие в компьютерах пользователи, воспринимают этот формат хранения звука как заведомо низкопробный и относятся к нему несерьезно. Такое совершенно неоправданное отношение к себе MP3 заработал в Интернете. Интернет уже давно кишит аудио файлами в этом формате, однако большая их часть очень низкого качества. Основная причина такого положения кроется совсем не в низкосортности MP3, а в некомпетентности и дилетантстве тех пользователей, которые выкладывают неумело сжатые в MP3 некачественные аудио материалы на всеобщее обозрение в Интернете.

Однако эта статья не просто об MP3. В этой статье мы постараемся разобраться в том, как правильно использовать технологии кодирования аудио, подобные MP3; затронем вопросы, связанные с современными приемами кодирования аудио, с их преимуществами и недостатками; разберемся, каким образом в форматах MP3, OGG, AAC, MPC и WMA можно получить качественный звук, а также обсудим другие сопутствующие вопросы, связанные с кодированием аудио.

Оговоримся сразу, что MP3 - не панацея. Похожих кодеков/форматов аудио файлов существует уже достаточно много и о некоторых из них мы поговорим в этой статье подробно, а начали мы это обсуждение с MP3 лишь потому, что "MP3" находится у всех "на слуху".

I. Цифровое и аналоговое представление звуковых сигналов

Чтобы нам было проще разобраться в дальнейшем материале, приведем для начала несколько общеизвестных фундаментальных понятий из области физики звука.

Что такое звук и как мы его слышим? Звуковая волна - это механические колебания молекул воздуха, передающиеся в пространстве. Звук, звуковой сигнал - это набор звуковых волн. Колебания воздуха, попадая в ушную раковину человека, проходят через систему отверстий слухового аппарата и возбуждают нервные окончания. Мозг, анализируя полученную информацию, "слышит" звук, различный по высоте, направлению и мощности. Сила ощущаемых звуковых колебаний зависит от их амплитуды. В классическом определении, амплитуда - это наибольшее (максимальное) отклонение синусоидальной звуковой волны (звуковой волны, изменяющейся во времени и пространстве строго по синусоидальному закону) от нулевого значения. Применительно к реальным звуковым сигналам (сложным несинусоидальным колебаниям), под амплитудой сигнала на практике подразумевают текущую величину сигнала в данный момент времени.

Звук представляется в звуковой аппаратуре либо непрерывным электрическим сигналом, либо набором цифр (нулей и единиц). Аппаратура, в которой рабочий сигнал является непрерывным электрическим сигналом, называется аналоговой аппаратурой (например, радио приемник, осциллограф и т.д.), а сигнал, передающийся через такую аппаратуру, - аналоговым сигналом. Преобразование звуковой волны в аналоговый сигнал можно осуществить, например, следующим способом. Мембрана из тонкого металла с намотанной на нее катушкой индуктивности, подключенной в электрическую цепь и находящаяся в поле действия постоянного магнита, подчиняясь колебаниям воздуха, вызывает соответствующие колебания силы тока в цепи. Эти колебания как бы моделируют оригинальную звуковую волну. Приблизительно так работает привычный для нас микрофон, преобразовывающий звуковые колебания в аналоговый сигнал. Аналоговый сигнал может быть записан на магнитную ленту и впоследствии воспроизведен.

Звуковой сигнал, как известно из физики, можно представить в виде спектра входящих в него частот (частотный спектр). Частотные составляющие спектра - это синусоидальные колебания (так называемые чистые тона), каждое из которых имеет свою собственную амплитуду и частоту. Вообще, любое, даже самое сложное по форме колебание (например, человеческий голос), можно представить суммой простейших синусоидальных колебаний определенных частот и амплитуд. И наоборот, сгенерировав различные по частоте синусоидальные колебания и просуммировав их, можно получить самые различные звуковые сигналы. В качестве наглядного примера рассмотрим звуковую волну, образованную путем наложения (сложения) трех синусоид с частотами 500 Гц, 2000 Гц и 2500 Гц

Примечание:

1. человеческий слуховой аппарат способен различать частотные составляющие звука в пределах от 20 Гц до ~20 КГц (верхняя граница может колебаться в зависимости от возраста и других факторов).

2. Вообще говоря, разговор о классическом разложении сигнала в частотный спектр справедлив только в отношении периодических сигналов. Частотный анализ реальных, непериодических сигналов производят поблочно, разделив анализируемый сигнал на блоки и работая с каждым блоком как будто бы с одним периодом периодического сигнала.

А теперь поговорим о близких к цифровому звуку понятиях. Как известно, компьютер оперирует данными в цифровом виде. Поэтому, чтобы продолжить обсуждение дальше, нам необходимо разобраться в том, как можно представить звуковой сигнал в цифровом виде.

Цифровой звук - это аналоговый звуковой сигнал, представленный посредством дискретных численных значений его амплитуды. Реальный звуковой сигнал - это сложное по форме колебание, некая сложная функция зависимости амплитуды звуковой волны от времени. Технология преобразования аналогового звукового сигнала в цифровой вид (оцифровка) заключается в осуществлении замеров амплитуды сигнала с определенным временным шагом и последующей записи полученных значений в численном виде. В этом, казалось бы, простом методе есть свои сложности, а именно, значения амплитуды сигнала невозможно записать с бесконечной точностью, и поэтому их необходимо округлять. Таким образом, выходит, что в процессе оцифровки мы приближаем звуковую (аналоговую) волну сразу по двум координатным осям - амплитудной и временной, то есть, берем значения амплитуды волны с определенным шагом и записываем их с конечной точностью.

Говоря более формально, оцифровка сигнала включает в себя два процесса - процесс дискретизации (осуществление выборки) сигнала по времени и процесс квантования по амплитуде. Процесс дискретизации по времени - это процесс получения значений преобразуемого сигнала с определенным временным шагом - шагом дискретизации. Для простоты объяснений мы будем считать, что шаг дискретизации постоянен, однако это условие совсем не обязательно. Чем меньше шаг дискретизации, тем чаще берутся значения амплитуды. Количество осуществляемых замеров амплитуды в одну секунду называют частотой дискретизации.

Квантование по амплитуде - это процесс замены реальных значений сигнала приближенными с определенной точностью.

Точность округления зависит от выбранного количества и расположения уровней квантования: чем больше уровней квантования и чем ближе они друг к другу, тем на меньшую величину приходится округлять измеренные значения амплитуды, и, таким образом, тем меньше получаемая погрешность. Итак, оцифровка сигнала - это регистрация амплитуды сигнала через определенные промежутки времени и запись полученных значений амплитуды в виде округленных цифровых значений. Записанные численные значения амплитуды сигнала называются отсчетами. Очевидно, что чем чаще мы будем делать замеры амплитуды (чем выше частота дискретизации) и чем меньше мы будем округлять полученные значения (чем выше разрядность квантования), тем более точное представление оригинального сигнала в цифровом виде мы получим. Здесь следует заметить, что когда мы говорим о более или менее точной передаче сигнала, под этим нужно понимать не лучшую или худшую слышимость сигнала, а большую или меньшую зашумленность и искаженность оригинального сигнала. Например, ведение оцифровки оригинального сигнала на слишком низкой частоте дискретизации приводит при воспроизведении сигнала к появлению очень неприятных шумов. Это же относится и к выбору низкой разрядности квантования.

Примечание:

Здесь и далее по тексту мы неоднократно будем пользоваться понятием "качество звучания". Немаловажно заметить, что это понятие не является хоть сколько-нибудь объективной характеристикой и не имеет ничего общего с физическими оценочными характеристиками звучания. Это связано с тем, что само звучание воспринимается разным слушателем по-разному. "Качество звучания" характеризует, скорее, степень удовлетворенности слушателя звучанием. Принято считать, что качество звучания определяется в основном наличием и "поведением" высоких частот (в полосе от 5 кГц и выше), тогда как частоты в полосе от 0 до 3-5 кГц определяют ясность звучания. Например, человеческую речь и музыку невозможно разобрать без наличия в ней нижней полосы частот, тогда как верхние частоты придают звучанию окрас четкости и качества.

Оцифрованный сигнал в виде набора последовательных значений амплитуды можно сохранить в памяти компьютера. В случае, когда записываются абсолютные значения амплитуды, такой формат записи называется PCM (Pulse Code Modulation).

Несколько слов необходимо сказать о восприятии слушателем пространственности звучания. Человек слышит двумя ушами и за счет этого способен различать направление прихода звуковых сигналов. Объяснение этому простое. Уши человека расставлены на определенном расстоянии по ширине головы. Скорость распространения звуковой волны относительно невелика. Сигнал, приходящий от источника звука, находящегося напротив слушателя, приходит в оба уха одновременно, и мозг интерпретирует это как расположение источника сигнала либо позади, либо спереди, но не сбоку. Если же сигнал приходит от источника, смещенного относительно центра головы, то звук приходит в одно ухо быстрее, чем во второе, что позволяет мозгу соответствующим образом интерпретировать это как приход сигнала слева или справа. Если осуществить запись звукового сигнала с помощью одного приемника (микрофона), то при воспроизведении этого сигнала через один или даже несколько репродукторов, слушатель не сможет ощутить пространственную картину оригинального звучания, поскольку записанный на ленту сигнал есть монофоническая запись (одноканальная запись), т.е. запись оригинального звучания лишь из одной точки пространства. Если же запись была произведена с помощью двух приемников одновременно, расположенных в двух разных точках пространства (фактически, две независимых параллельных записи), то воспроизведение такого сигнала через два репродуктора, правильно расположенных относительно слушателя, даст возможность передать слушателю пространственность звучания оригинального сигнала. Такая запись (т.е. две параллельных записи одного и того же сигнала в разных точках пространства) называется стереофонической или двухканальной.

Качество донесения до слушателя оригинальной пространственности звучания можно повышать путем добавления в запись дополнительных каналов (то есть, осуществляя запись сигнала с трех и более точек пространства).

II. Приемы кодирования аудио.

Как мы выяснили, путем простой оцифровки реального звукового сигнала с высокой частотой выборки и разрядностью квантования можно очень качественно, почти без потерь качества, сохранить желаемый аудио материал в компьютере. Тогда возникает вопрос: зачем нужны различные алгоритмы сжатия звукового материала, подобные MP3?

На то есть свои причины. Дело в том, что желание сохранить оригинальное качество аудио данных при их переводе из аналогового вида в цифровой наталкивается на определенные трудности. Согласно теореме Котельникова (Найквиста) частота дискретизации устанавливает верхнюю границу частот оцифрованного сигнала, а именно: максимальная частота спектральных составляющих оцифрованного сигнала равна половине частоты дискретизации сигнала. Попросту говоря, чтобы получить полную информацию об оригинальном аналоговом сигнале в частотной полосе от 0 до 22050 Гц (в слышимом человеком диапазоне частот), необходимо дискретизовать сигнал с частотой не менее 44.1 КГц. Это означает, что чтобы сохранить оригинальное качество аудио материала необходимо выбирать высокие значения параметров оцифровки. Однако, чем выше значения этих параметров, тем больший объем памяти компьютера требуется для хранения оцифрованных данных. Например, стандартный аудио компакт диск объемом 650 Мб хранит аудио данные в формате PCM 44.1 КГц / 16 бит / stereo. Такие параметры соответствуют двухканальной записи с 65536 (216) уровнями квантования амплитуды при взятии ее значений 44100 раз в секунду. Несложно подсчитать, что в таком виде на диск помещается около часа музыки, что, в принципе, не очень много, если учесть, что коллекция аудио может исчисляться тысячами часов. Заметим попутно, что стандартным типом файлов для хранения оцифрованной несжатой аудио информации на сегодняшний день является формат .WAV - это универсальный контейнерный тип файлов, позволяющий хранить оцифрованные аудио данные с самыми разными параметрами оцифровки.

Таким образом, чтобы иметь возможность хранить относительно большие объемы аудио данных в хорошем качестве приходится прибегать к "ухищрениям", которые помогают записать аудио данные с использованием ощутимо меньшего объема памяти (то есть, уплотнить, сжать, закодировать данные) и не слишком сильно ухудшая (или даже совсем не ухудшая) при этом качество звучания. Об этих ухищрениях мы сейчас и поговорим.

Существует два распространенных способа кодирования аудио информации (кроме простого хранения в оцифрованном виде "как есть").

Примечание:

* Кодирование информации - представление информации в определенной системе кодовых символов и их структур. Шифрование, а также уплотнение (сжатие) информации являются частными случаями кодирования.

* Под потоком данных мы будем понимать содержимое файла, данные, принимаемые из Интернета или любую другую последовательную информацию.

1. Сжатие данных без потерь (lossless coding) - это способ кодирования аудио информации, который позволяет осуществлять стопроцентное восстановление данных из сжатого потока. К такому способу уплотнения данных прибегают в тех случаях, когда необходимо именно стопроцентное сохранение оригинального качества звучания аудио данных. Например, после сведения звука в студии звукозаписи, данные необходимо сохранить в архиве в оригинальном качестве для их возможного использования впоследствии. Существующие сегодня алгоритмы сжатия без потерь (например, алгоритм, реализованный в кодеке Monkeys Audio, а также кодеках Flac, WavPack, TTA, OptimFrog и других) позволяют сократить занимаемый данными объем на 20-50% и при этом обеспечить стопроцентное восстановление оригинальных данных из полученных после сжатия. Подобные кодеры - это своего рода архиваторы данных (как, например, ZIP, RAR и другие), только предназначенные специально для сжатия аудио информации.

Примечание:

* кодер - программа (или устройство), реализующая определенный алгоритм кодирования данных (например, архиватор, или кодер MP3), которая в качестве ввода принимает исходную информацию, а в качестве вывода возвращает закодированную информацию в определенном формате.

* декодер - программа (или устройство), реализующая обратное преобразование закодированного сигнала в декодированный.

* кодек (от англ. "codec" - "Coder/Decoder") - программный или аппаратный блок, предназначенный для кодирования/декодирования данных.

Такой способ сжатия данных, хотя и идеален с точки сохранности качества аудио материалов, но неспособен обеспечить высокий уровень компрессии.

2. Имеется и второй путь сжатия - сжатие данных с потерями (lossy coding). Цель такого кодирования - любыми способами добиться схожести звучания декодированного аудио сигнала с оригиналом при как можно меньшем объеме упакованных данных. Сегодня эта цель достигается за счет использования различных алгоритмов "упрощающих" оригинальный сигнал, выкидывая из него "ненужные" слабослышимые (или вообще неразличимые человеческим ухом) детали. После такого кодирования, декодированный сигнал при воспроизведении звучит похоже на оригинал, но фактически перестает быть ему идентичным. Методов сжатия, а также программ, реализующих эти методы, существует много. Наиболее известными являются MPEG-1 Layer 3 (это и есть официальное название всем известного "MP3"), MPEG-2/4 AAC (MPEG-2 и MPEG-4 Advanced Audio Coding), Ogg Vorbis (сокращенно OGG), Windows Media Audio (WMA), MusePaсk (MPC) и другие. Выигрыш от использования таких алгоритмов сжатия вполне очевиден: коэффициент сжатия, обеспечиваемый такими кодерами, находится, усреднено, в пределах 7-14 (раз) и это при малозаметных потерях качества оригинального звучания. Практически это означает, что если одна песня с компакт диска занимает в формате PCM 44.1 КГц / 16 бит / stereo около 50 Мб (в виде .WAV-файла), то она же, сжатая в MPEG-1 Layer 3 (MP3), будет занимать уже около 3-7 Мб и при этом более чем удовлетворять по качеству звучания. Согласитесь, это неплохой вариант.

Как мы сказали, компрессия данных в lossy-кодерах достигается за счет "упрощения" аудио информации. В основе почти всех lossy-кодеров лежит использование так называемой психоакустической модели, которая как раз и используется для упрощения оригинального сигнала. Механизм кодера, основанного на упрощении спектра входного сигнала (есть также кодеры, основанные на других методах) работает приблизительно так. Кодер выполняет анализ кодируемого сигнала, в процессе которого определяются участки сигнала, в определенных частотных областях которых имеются неслышные человеческому уху нюансы (замаскированные или слабо слышимые частоты, кратковременные малозаметные всплески частот и проч.), после чего происходит удаление подобных нюансов из оригинального сигнала. Такая обработка упрощает форму оригинальной звуковой волны, делая ее "более гладкой". Степень сжатия оригинального сигнала зависит от степени его "упрощения"; сильное сжатие достигается путем "агрессивного упрощения", когда кодер "считает" ненужными множественные нюансы оригинальной звуковой волны. Такое сжатие, естественно, приводит к сильной деградации качества, поскольку удалению могут подлежать не только незаметные, но и значимые детали звучания. Отличительной особенностью всех современных lossy-кодеров является возможность тонкой настройки процесса кодирования, что, при правильном понимании и подходе, позволяет добиваться высокого коэффициента сжатия при совершенно незаметных (даже на самой хорошей аудио аппаратуре) потерях качества звучания.

Теперь о том, каким образом происходит упрощение сигнала в процессе кодирования (опять же, на примере механизма работы кодера, основанного на упрощении спектра обрабатываемого сигнала). Механизм "упрощения" аудио сигнала можно пояснить следующим образом. Исходный аудио сигнал разделяется на блоки определенной длины, после чего каждый блок обрабатывается в отдельности. В процессе кодирования каждый блок раскладывается на частотные составляющие спектра. Как мы сказали, чем меньше "тонких нюансов звучания" имеется в сигнале (чем проще частотный спектр сигнала), тем эффективнее его компрессия. Упростить сигнал можно по-разному. Например, можно отфильтровать все частотные составляющие сигнала, располагающиеся выше определенной границы, что автоматически упростит сигнал в высоких частотных областях (но при этом, естественно, заметно испортит звучание). Однако основным способом является проведение психоакустического анализа с последующей соответствующей обработкой сигнала: кодер анализирует аудио информацию и, опираясь на указанный пользователем битрейт, "решает" какие тонкости звучания можно выбросить.

Примечание:

· битрейт - количество бит, используемых для хранения одной секунды аудио. Для стандартного .WAV-файла в формате PCM 44.1 KHz / 16 bit / stereo это число составляет: 44100 (значений амплитуды в секунду) * 16 (бит для записи одного значения амплитуды) * 2 (канала) = 1411200 бит в секунду = около 1378 Кбит/с (килобит в секунду).

· при сжатии в MP3 (и многие другие форматы) пользователь указывает желаемый битрейт (или границы изменения битрейта) для сжатого выходного потока. Чем ниже битрейт, тем меньше бит позволяется кодеру отводить для хранения информации об одной секунде аудио и, таким образом, тем сильнее кодер упрощает сигнал, что соответственно влияет на качество звучания получаемого сжатого потока аудио. Наиболее распространенное в Интернете среднее значение битрейта для музыки в формате MP3 колеблется в пределах от 128 до 192 Кбит/с.

Следует особо подчеркнуть, что применение психоакустики в качестве механизма упрощения приводит к тому, что процесс декодирования уже не способен восстановить утраченные во время компрессии данные (выброшенные нюансы звучания, отфильтрованные частоты и проч.). Это означает, что сжимать данные нужно "с умом": если вы сжимаете музыку для вашей аудио коллекции, то не следует слишком ограничивать битрейт кодера, поскольку это может привести к серьезным потерям качества. С другой стороны, если подходить к кодированию компетентно, то результатом кодирования будет хороший коэффициент сжатия (что и является целью кодирования) плюс высокое качество звучания.

III. Компрессия на практике.

Для того чтобы практически воспользоваться возможностями аудио кодеров и закодировать аудио данные в полюбившийся формат (скажем, тот же MPEG-1 Layer 3), необходимо сначала оцифровать аудио информацию, если она находится на аналоговых носителях (например, на магнитной ленте).

Выше мы говорили, что процесс оцифровки заключается в дискретизации и квантовании аналогового сигнала. На практике процесс оцифровки остается невидимым для пользователя: всю черновую работу делают разнообразные программы, которые дают соответствующие команды драйверу (управляющая подпрограмма операционной системы) звуковой карты. Пользователю остается лишь подключить воспроизводящую аппаратуру ко входу звуковой карты, включить режим воспроизведения, установить необходимые параметры оцифровки (количество каналов сигнала, частота дискретизации и разрядность квантования) и записать (оцифровать) аудио сигнал, воспользовавшись любой удобной программой для записи аудио. После окончания оцифровки, полученные данные следует записать в .WAV-файл в формате PCM.

Оцифрованный сигнал в виде файла в формате .WAV можно подвергнуть кодированию с помощью выбранного кодера (будь то кодер WMA, MP3 или другой). Для этого нужно запустить соответствующую программу-кодер (их мы обсудим позже), выбрать параметры кодирования (битрейт, способ кодирования стерео информации и другие параметры) и запустить процесс кодирования. На современных компьютерах кодирование, например, одного .WAV файла размером около 50 Мб берет не больше минуты. Полученные закодированные файлы будут занимать намного меньший объем памяти, нежели исходные .WAV-файлы, но при воспроизведении звучать как оригинальные (конечно, при условии грамотного подбора параметров кодирования).

Закодированные файлы можно сохранить в своей аудио коллекции или даже взять с собой в дорогу, вооружившись каким-нибудь аппаратным проигрывателем аудио файлов.

IV. Подробнее о lossy аудио кодеках MP3, OGG, WMA, AAC и MPC.

Современных lossy-кодеров существует достаточно много: MPEG-1 Layer 3 (MP3), Windows Media Audio (WMA), Ogg Vorbis (OGG), MusePack (MPC), MPEG-2/4 AAC и другие. Мы остановимся подробно на рассмотрении именно этих пяти наиболее распространенных сегодня кодеков.

MP3 - MPEG-1 Layer 3

О стандартах MPEG в общем и о MP3 в частности

MPEG-1 Layer 3 (всем известный как "MP3") - наиболее распространенный сегодня кодек. Он завоевал свою популярность вполне заслуженно - это был первый распространенный lossy-кодек, который достиг столь высокого уровня компрессии при отличном качестве звучания.

Немного истории. MPEG расшифровывается как "Moving Picture Coding Experts Group", дословно - "группа экспертов по кодированию подвижных изображений". MPEG ведет свою историю с января 1988 года. Начиная с первого собрания в мае 1988 года, группа начала расти, и выросла до необычайно плотного коллектива специалистов. Обычно, в собрании MPEG принимают участие около 350 специалистов из более чем 200 компаний. Большая часть участников MPEG - это специалисты, занятые в тех или иных научных и академических учреждениях. На сегодняшний день группой MPEG разработаны следующие стандарты и алгоритмы:

· MPEG-1 (ноябрь 1992) - стандарт кодирования, хранения и декодирования подвижных изображений и аудио информации;

· MPEG-2 (ноябрь 1994) - стандарт кодирования для цифрового телевидения;

· MPEG-4 - стандарт для мультимедиа приложений;

· MPEG-7 - универсализованный стандарт работы с мультимедиа информацией, предназначенный для обработки, фильтрации и управления мультимедиа информацией.

Рассмотрим комплект стандартов MPEG-1. Этот комплект, в соответствии со стандартами ISO (International Standards Organization), включает в себя три алгоритма различного уровня сложности: Layer 1 (уровень 1), Layer 2 и Layer 3 (это и есть MP3). Общая структура процесса кодирования одинакова для всех уровней. Вместе с тем, несмотря на схожесть уровней в общем подходе к кодированию, уровни различаются по целевому использованию и внутренним механизмам (что во многом определяет степень схожести алгоритмов, "вышедших" из MPEG-1, таких как, например, Ogg Vorbis и MusePack). Для каждого уровня определен свой формат записи потока данных и свой алгоритм декодирования. Алгоритмы MPEG-1 основаны в целом на изученных свойствах восприятия звуковых сигналов слуховым аппаратом человека - об этих приемах мы говорили выше.

Кратко об алгоритме кодирования MPEG-1. В начале процесса входной поток с помощью фильтров разделяется на частотные полосы. Дальнейший процесс зависит от Layer'a.

В случае Layer 3 (то есть MP3) в каждой полосе сигнал раскладывается на частотные составляющие спектра (применяется косинусное преобразование - MDCT, частный случай преобразования Фурье) в результате чего получается набор коэффициентов. Дальнейшая обработка сигнала нацелена на упрощение сигнала с целью переквантования коэффициентов спектральных составляющих. Спектр очищается от заведомо неслышных составляющих - низкочастотных шумов и наивысших гармоник, то есть фактически фильтруется. На следующем этапе производится описанный ранее значительно более сложный психоакустический анализ слышимого спектра частот. После всех этих манипуляций из цифрового аудио сигнала исключается больше половины информации. В довершение всего проводится сжатие уже готового потока данных упрощенным аналогом алгоритма Хаффмана (алгоритм компрессии данных без потерь), что позволяет также значительно уменьшить занимаемый потоком объем.

В случае Layer 2 идея упрощения сигнала остается той же, однако переквантованию подвергаются не коэффициенты MDCT, а амплитудный сигнал в каждой частотной подполосе (по приблизительно аналогичной схеме работают и некоторые другие lossy кодеки).

Комплект MPEG-1 предусмотрен для кодирования сигналов, оцифрованных с частотой дискретизации 32, 44.1 и 48 КГц. Три упомянутых выше уровня MPEG-1 имеют различия в механизмах кодирования и, таким образом, в обеспечиваемом коэффициенте сжатия и качестве звучания получаемых потоков. Layer 1 позволяет хранить сигналы в формате 44.1 КГц / 16 бит без сильно ощутимых потерь качества при скорости потока 384 Кбит/с, что составляет 4-х кратный выигрыш в занимаемом объеме; Layer 2 обеспечивает субъективно такое же качество при 192 - 224 Кбит/с, а Layer III (MP3) - при 128-160. Нельзя говорить и выигрыше или проигрыше одного уровня перед другим, так как каждый уровень разработан для достижения своей цели. Например, преимущество Layer 3 заключается в том, что фактически он позволяет сжимать информацию в 8-12 раз (в зависимости от битрейта) без ощутимых потерь оригинального качества звучания. При этом, однако, обеспечиваемая им скорость компрессии самая низкая (надо отметить, что при современных скоростях процессоров это ограничение совершенно не ощутимо). Layer II потенциально способен обеспечить более высокое качество кодирования в виду более "легкой" внутренней обработки сигнала в процессе преобразования. В то же время, Layer II не позволяет достигать столь высоких коэффициентов компрессии, какие достигаются Layer III.

Нюансы кодирования.

Техника кодирования аудио является достаточно сложной и имеет множество нюансов. Все их невозможно пояснить в рамках одной статьи, однако самые важные из них мы все же рассмотрим, поскольку почти каждый пользователь сталкивается с ними при самостоятельном кодировании файлов.

Кодирование данных в MP3 (как и в WMA о OGG) происходит поблочно: кодируемый файл разбивается на так называемые фреймы (кадры) с одинаковым временным интервалом, каждый кадр в отдельности кодируется и записывается в выходной поток; таким образом, выходной поток также имеет кадровую структуру. Фреймы могут быть закодированы не на любом битрейте, а только на одном из входящих в таблицу стандартных для MPEG1 Layer 3 битрейтов (Кбит/с): 32, 40, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256, 320 (кодирование на произвольных промежуточных битрейтах стандартом не предусмотрено, хотя возможно). В виду осуществления покадровой разбивки исходных файлов можно говорить о сжатии данных с постоянным (CBR) и переменным (VBR) битрейтом.

CBR (Constant Bitrate - постоянный битрейт) - это способ кодирования исходного аудио потока, когда все его блоки (фреймы) кодируются с одинаковым результирующим битрейтом. Иными словами, битрейт на всей протяженности закодированных данных остается неизменным.

VBR (Variable Bitrate - переменный битрейт) - это способ кодирования исходного аудио потока, когда каждый отдельный блок (фрейм) кодируется со своим битрейтом. Выбор битрейта, оптимально подходящего для кодирования данного фрейма, осуществляется самим кодером путем анализа сложности сигнала в каждом отдельном фрейме.

Существует и еще один режим - ABR (Average bitrate - средний битрейт). Работа в этом режиме (это справедливо, по крайней мере, для кодеров MP3) похожа на работу в режиме CBR, но при этом кодирование производится в режиме переменного битрейта с сохранением неизменности его усредненного значения. Не вдаваясь в технические подробности, отметим, что кодирование в режимах VBR и ABR является намного более гибким и, чаще всего, выгодным и качественным, нежели в режиме CBR.

Важно отметить, что режимы ABR, VBR и CBR применяются также во многих других кодерах, отличных от MP3.

Рассмотрим теперь существующие методы кодирования стерео аудио информации в стандартах MPEG-1 Layer 1,2,3. Эти методы, возможно, с некоторыми разночтениями, используются не только в MPEG, но и во множестве других кодеков.

Dual Channel. Этот режим предполагает кодирование стерео каналов, как абсолютно независимых. Иными словами, в этом режиме кодирование аудио информации происходит отдельно в каждом канале без отслеживания зависимости сигнала в каналах. Как и следует из названия, этот режим главным образом предназначен для кодирования двух параллельных, но различных каналов (например, речь на английском и немецком языках), а не стерео (несущих информацию о стерео картине). В целом, этот режим не рекомендуется использовать для кодирования стерео сигнала.

Stereo. Этот режим отличается от предыдущего тем, что в режиме Dual Stereo во время кодирования для каждого канала используется свой резервуар (механизм, отвечающий за отведение кодируемым фреймам бит выходного потока), а в режиме Stereo оба канала кодируются с использованием общего резервуара. Иных различий между режимами нет.

Joint Stereo - это общее определение методов кодирования стерео информации, основанных на использовании ее избыточности. В MPEG-1 имеются две разновидности этого метода.

MS Stereo. В данном режиме кодируются не левый и правый канал, а их суммарная составляющая (mid-канал) и разностная (side-канал) с использованием некоторых дополнительных "хитростей".

Intensity Stereo. В этом режиме весь кодируемый сигнал разбивается на полосы и фактическому кодированию подвергается только нижний диапазон частот side-канала, а в верхнем частотном диапазоне начиная с определенной частоты происходит не кодирование, а лишь регистрация мощностей сигнала в каждой полосе. Кодирование стерео сигнала в нижнем частотном диапазоне осуществляется в режиме MS Stereo или просто Stereo.

Необходимо отметить, что использование MS Stereo не вносит в сигнал никаких дополнительных погрешностей, поскольку при переразбиении стерео сигнала в формате <левый> + <правый> канал на mid- и side-канал не происходит ничего, кроме безобидных и притом полностью обратимых математических вычислений. В то же время, этот несложный прием кодирования стерео информации позволяет кодеру более эффективно реализовывать свой потенциал в процессе кодирования, нежели в режиме Stereo.

ОGG - Ogg Vorbis.

Одной из неприятных особенностей кодека MP3 всегда являлась его коммерциализованность, которая заключается как минимум в том, что каждый производитель, создающий новый MP3-кодер, обязан платить отчисления "отцам" кодека. Такое положение вещей не могло не вызвать появление каких-то новых разработок в области потребительской компрессии аудио. Так и случилось.

Кодек Ogg Vorbis вышел в свет в июне 2000. Этот формат является частью проекта Ogg Squish по созданию полностью открытой системы мультимедиа. Иными словами, и сам проект, и Ogg Vorbis в частности, являются открытыми и свободными для распространения, а также разработки на его основе нового программного обеспечения. В FAQ разработчиков (группа Xiphophorus) написано, что в основе Ogg Vorbis лежат те же идеи, что и в основе известного MPEG-1 Layer II, однако OGG использует оригинальный математический алгоритм и собственную психоакустическую модель, что освобождает его от необходимости выплачивать какие-то лицензионные отчисления и производить иные выплаты сторонним фирмам-изготовителям аудио форматов. Алгоритм Ogg Vorbis рассчитан на сжатие данных на всех возможных битрейтах без ограничений, то есть от 8 Кбит/с до 512 Кбит/с, но при этом только в режиме переменного битрейта (VBR). Режим CBR в Ogg Vorbis не реализован. Алгоритм предусматривает хранение внутри файлов-контейнеров подробных комментариев об исполнителе и названии композиции. В алгоритме предусматривается также возможность кодирования нескольких каналов аудио (более двух, теоретически до 255), возможность редактирования содержимого файлов, а также так называемый "масштабируемый битрейт" - возможность изменения битрейта потока без необходимости его декодирования. Поддерживается потоков

Изменено 7 марта, 2008 пользователем alancor

**faiwer** · 16 декабря, 2008

В общем недавно понял что winamp мне не подходит.. начал скачивать другие.. проставлять настраивать и т.д.., понял что мне надо но не понял бывает ли такое вообще.

JET AUDIO 7/10

Минусы:

абсолютно неюзабельное главное окно

дерево в библиотеке не настраивается

верхняя часть екрана в библиотеке занимает много места, и практически безполезно. убрать нельзя

Плюсы

свой регулятор громкости в библиотеке

свой ползунок. правда очень мелкий

редактирование тегов прямо в окне

ооочень удобный список воспроизведения в библиотеке

FOOBAR

Плюсы

симпотичный плейлист с удобным делением на альбомы\исполнителей, а также ползунком на самой песне

lyric встроен на 5ку

Минусы

левая панель почти никогда не нужна, но не убирается...

библиотека практически не юзабельна.. ужас какой то

етот скин мне показался единственным достойным внимания...

косяки с интерфейсом

жутко бесит что если уня выбран плейлист и я кликаю файл из проводника то плейлист затирается етой песней оО

WINAMP

Плюсы - невероятное кол-во красивых скинов...

Склеимаевость окошек

Минусы

купил радиоуши... стало нещадно гнать. часто сбивает еквалайзер левое-правое чисто влево и правое ухо молчит. почему хз, тока винамп так

жутко неудобные плейлист и библиотека

след. песня выбирается наугад очень коряво..всегда сосдаётся такое ощущение что слушаю одно и тоже, даже если плейлист ооочень большой

WMPLAYER 11

Плюсы

удобная библиотека.. точнее та часть которая проигрывается

можно ставить "звёздочки" просто пролетая мышкой

хм.. ну удобный интерфейс, возможность редактирования вида "плейлиста" (стандартный плейлист отключил за неудобностью)

Минусы

глючит интерфейс.. например плейлист тока после рестарта появился =)

неудобная библиотека.. ничего не изменяется, правда надо отметить гораздо меньше всякой чуши

выбор раздела ввиде каких то дисков, аля картинка альбома. как убрать хз, смотрица жутко и дико не удобно

редактирование самих плейлистов (ну например добавить файл), как я понял тока в стандартном плейлисте

-------------

В общем пока ничего дельного не нашёл. Остановился на JetAudio, ибо он удобнее всех, но всё таки чтото не то. Что мне могут предложить гуру? =) ну кроме как убиться об стену.. выпить яду и т.д. =)

Изменено 16 декабря, 2008 пользователем sco

**LoginLoginLoin** · 14 марта, 2014

В продолжение моей созданной темы "

Как без колонок для ПК, перевести звук ПК на широкоэкранный телевизор".

Я установил по новой Виндовс. Не получаеться включить звук на телевизоре. Я стал устанавливать драйвера NVIDIA с диска, они установились, появился звук с телвизора, затем программа поотребовала перезагрузить компьютер, я сделал это и после этого, через несколько секунд звук с телевизора пропал. Я захожу по пути Пуск - панель управления - звуки и аудиоустройства - аудио - воспроизведение звука - используемое по умолчанию устройство. Устанавливаю устройство и всё равно звука нет. Это глюченные драйвера на диске, который прилагался к телевизору.

**Yezhishe** · 14 марта, 2014

Зачем устанавливать давно устаревшие драйверы с древнего диска-то? Неужели Интернет запретили, а сайты производителей забанили за экстремизм^tm и детскую порнографию^tm?

Тем более, что такая проблема у вас уже была, но благополучно решилась...

**LoginLoginLoin** · 4 апреля, 2014

в поиске не выходят драйвера для этого телевизора, вношу в поиск название телевизора и самую большую надпись на диске с драйверами "Gigabyte", нельзя их достать. На форуме поддержки Филипс http://www.supportforum.philips.com нельзя зарегистрироваться и на письма они не отвечают, уже несколько дней, этой компании плевать на своих покупателей

**OVERLORD** · 26 января, 2019

В 26.02.2008 в 15:36, alancor сказал:

А потому и хочу предоставить свой вариант склеивания муз. файлов по средствам довольно серьёзной программы

Это очень сложно, склеивать mp3-файлы с помощью Sound Fourge.

Была очень простенькая программка для склейки звуковых файлов на другом компьютере, к сожалению не помню ее названия. Без потери качества и декодирования.

Никто не вспомнит ее название?

Небольшое окно, туда кидаешь файлы, потом выделяешь и жмешь кнопку Соединить. - И это всё.

Изменено 26 января, 2019 пользователем OVERLORD

**Mercilaud** · 27 января, 2019

MP3DirectCut. Предназначена для разрезки файлов, но можно и склеивать файлы вместе. О такой недокументированной фишке я когда-то писал.
Что примечательно, операции идут без перекодирования, следовательно, нет потери в качестве.

**Valery** · 27 января, 2019

Format Factory последних версий так умеет.

Примерно так и работает, - навалил файлов и запустил склейку, потом сохранил результат. Только количество загружаемых для склейки файлов ограничено, но всё равно довольно много, помню число 50, но не уверен. Если нужно склеить больше, ничего не мешает склеить уже склеенные куски. По "весу" и длительности ограничений нет, только по количеству. Проверял сам - вроде как работает.

Войти

FAQ - по audio

Рекомендуемые сообщения

alancor

Ссылка на комментарий

Поделиться на другие сайты

alancor

Ссылка на комментарий

Поделиться на другие сайты

faiwer

Ссылка на комментарий

Поделиться на другие сайты

LoginLoginLoin

Ссылка на комментарий

Поделиться на другие сайты

Yezhishe

Ссылка на комментарий

Поделиться на другие сайты

LoginLoginLoin

Ссылка на комментарий

Поделиться на другие сайты

OVERLORD

Ссылка на комментарий

Поделиться на другие сайты

Mercilaud

Ссылка на комментарий

Поделиться на другие сайты

Valery

Ссылка на комментарий

Поделиться на другие сайты

Для публикации сообщений создайте учётную запись или авторизуйтесь

Создать учетную запись

Войти

Последние посетители 0 пользователей онлайн

Обзор

Активность