Максимальна затримка звуку, перш ніж плеєр помітить?

38

Зважаючи на якусь подію в грі, яка максимальна затримка для створення звуку, що програвач належним чином асоціює звук із цією подією (а не сприйматиме відставання)?

audio

— edA-qa mort-ora-y
джерело

Не багато. Я б здогадувався, що це має бути менше 1/10 секунди. Хоча особисто я можу це помітити, якби було більше декількох кадрів при 60 FPS.

— Алмо

Не забувайте, що в більшості випадків відображений результат також матиме певні відставання, частина яких надходитиме від монітора. Це може зайняти понад 100 мс, щоб результат введення гравця відобразився на екрані. Дивіться anandtech.com/show/2803

— Адам

1

Це приблизно 20 мілісекунд під час гри на інструменті, приблизно 80 мілісекунд, коли ви слухач. Це лише мій особистий досвід, ваш пробіг може відрізнятися.

— rwols

Більше за будь-який конкретний час вам потрібна послідовність. Поки все має однакову затримку, ви можете знаходитись в межах розуму. Якщо все спізнюється на 100 м, ви, можливо, не дуже помічаєте це, але якщо деякі звуки майже миттєві, а решта - 100 м або щось середнє, то ви помітите.

— 0xFADE

Якщо ви будь-яким чином цікавитеся якоюсь реалістичною поведінкою, ви можете розглянути деяку затримку подій, далеких від слухача, як щось позитивне.

— Darkwings

48

Наступний результат обчислюється для синхронізації губ, що вважається "найбільш помітною помилкою синхронізації / v" .

У Вікіпедії йдеться

У телевізійних програмах аудіо повинно вести відео не більше ніж на 15 мілісекунд, а аудіо - на відстань не більше ніж 45 мілісекунд. Для фільму прийнятною синхронізацією губ вважається не більше 22 мілісекунд в будь-якому напрямку.

Про це говорить лабораторія сприйняття засобів масової інформації та акустики

Результати експерименту визначили, що середній пороговий рівень аудіосигналу для виявлення синхронізації в / в становив 185,19 мс, зі стандартним відхиленням 42,32 мс.

Про це говорить ATSC

На перший погляд це здається вільним: від +90 мс до -185 мс як "Вікно прийнятності"

і

Невизначити від -100 мс до +25 мс

Визначити при -125 мс та +45 мс

Стає неприйнятним при температурі -185 мс та +90 мс

(- Звук затриманий, + звук розширений)

Прийти до висновку

Результати не так далеко один від одного. Мабуть, максимальна прийнятна затримка становить близько 150 мс, що становить 9 кадрів при 60 кадрах в секунду.

— Геккель
джерело

3

"Якщо у вас затримка, це відео, яке затримується." Здається, що це слід змінити, стаття ATSC чітко зазначає, що люди очікують / переносять звук, який відбувається трохи після прицілу (оскільки в реальному житті звук відстає від зору приблизно на 1 мс на фут відстані), але не пов'язує події належним чином якщо відеоподія відбудеться після звуку

— Петріс

Ви маєте рацію, я повністю зрозумів. Дякую. (Я відредагував)

— Геккель

1

Я можу вам сказати з особистого досвіду, що це навіть різниться між вухами у однієї людини. У мене рідкісний вестибулярний стан, який насправді змушує мій мозок переробляти слухову стимуляцію в лівому вусі, що помітно затримується проти правого вуха. У поганий день це викликає запаморочення, але більшу частину часу воно переносимо. Так так, це надзвичайно суб'єктивно.

— Андон М. Коулман

Де ти береш 150мс? Ваші джерела в середньому близько 45 мс.

— Майлз Рут

У Вікіпедії йдеться про 45 мс, але це не обов'язково найнадійніше джерело. Друге джерело каже 185,19 мс, а третє 125 мс, поки воно не стане помітним. Чи можете ви навести джерело, щоб допомогти мені зрозуміти, де я помиляюся?

— Геккель

9

Це залежить від події

Відчуваючи, що, скажімо, вибух, який ви бачите і чуєте - це єдина подія, будуть допущені допуски, описані в інших відповідях - не більше ~ 50 мс; деякі люди можуть бути більш чутливими (наприклад, музиканти), тому я б запропонував орієнтуватися на 30 мс або не більше 2 кадрів зі швидкістю 60 кадрів в секунду.

Я вважаю, що сприймається відстань має впливати на ці допуски. Люди очікують, що далекі звуки будуть трохи затримані, оскільки в реальному житті звук відстає від зору приблизно на 1 мс на кожну фут відстані. Таким чином, вибух на зменшеній грі RTS 'карта' може мати більшу толерантність до звукового відставання, ніж гравець, який стріляє власним пістолетом у FPS.

Спеціалізовані випадки, такі як належне відчуття музики / ритмічної гри, можуть вимагати набагато жорсткіших допусків, 15-20 мс і навіть нижче - наприклад, якщо гравець чує як "вхідні дії", такі як спів у мікрофон чи стук пластичний інструмент, а також звук, що створюється вашою системою для тієї ж події, то відставання 50 мс призведе до дивного змішування "оригінальних" та "зіграних" звуків.

Крім того, пам’ятайте про відставання між початком аудіофайлу та «подією» всередині цього аудіофайлу - у багатьох аудіокліпах «подія» не буде прямо на краю, у вас може з’явитися звук блискавки страйк, де «удар» трапляється через 200 м після початку, що було б очевидно для всіх, і майже всі звукові файли, навіть ударні, будуть мати певну затримку.

Не вимірюйте середні показники - подивіться на найгірший випадок

Зір і слух глибоко пов'язані у сприйнятті людини, і якщо один з них заїкається відносно іншого, то це буде помітно. Не нормально, якщо більшість часу це дуже швидко, але іноді виникає затримка на 0,2 секунди, коли щось завантажується - люди помітять подібні ситуації. Ось чому аудіо часто працює в окремому потоці, ізольовані від інших видів діяльності та отримує швидке повідомлення про те, які попередньо завантажені кліпи слід відтворювати.

— Петерис
джерело

5

Будь-яка ситуація, коли гравцеві видають звук (музичні ігри, гармати у FPS), знадобиться дуже низька затримка, оскільки гравець надіслав імпульс, щоб це відбулося в той момент, так що, коли музикант, чуючи, що їх інструмент затримується, буде особливо відомий дуже малих затримок. Звукоінженери хвилюються про затримки запису нижче 5 мСек, що руйнує "паз"

Журнал Американської академії аудіології стверджує, що люди (а не лише музиканти), слухаючи власний голос із затримкою, знають про затримки, що становлять 3 мсек., А затримка довше 10 мсек була заперечною 90% часу.

Люди використовують часову затримку між вухами для спрямованої інформації, і, таким чином, вони повинні мати можливість обробляти та витягувати інформацію із затримок, що не перевищують 1мс

185,19 мс, цитований вище, не має значення, оскільки йдеться про провідну звукову помилку і, як би там не було, те, що люди вважали прийнятним під час пасивного перегляду фільму, не активно займаючись грою.

— SamB
джерело

4

Тут прийнята відповідь головним чином обговорює сприйняття звукової синхронізації при пасивному перегляді відео. У цих випадках аудиторія не може легко визначити, коли саме звук повинен відтворюватись, за винятком відвідування рекламних знаків у відео. Це означає, що вони обмежені в очікуванні звуку.

Є два важливі випадки в іграх, коли це припущення з низьким очікуванням не виконується:

Коли гравець сам викликав звук (як вказує SamB), то з моменту, коли вони формують намір натиснути кнопку, вони точно знають, коли очікують почути звук.
Коли звук повинен приземлятися на періодичний ритм , як у музичних іграх або що-небудь із тикаючим таймером / лічильником, цей ритм дозволяє гравцеві передбачити наступний звук і помітити, якщо гратиме поза часом.

У цій розмові від GDC 2013 Матьє Павоау стверджує, що гравці можуть сприймати відмінності в точності синхронізації вище приблизно 5 мс , що набагато менше прощає, ніж пропонують приклади синхронізації губ. Перегляньте розділи "Приклади сприйняття часу" та "Приклад ігор Ubisoft", щоб дізнатися про це самостійно. Ви можете почути, що меню Rayman Origins не звучить "мляво", коли воно синхронізоване в межах 16 мс (відеокадр), але при синхронізації в межах 5 мс звучить помітно краще і жорсткіше.

Pavageau прихильники використовують низький рівень звукового зворотного дзвінка, щоб отримати таку точність підкадрових кадрів, якщо ви хочете, щоб ритмічний геймплей цього типу був жорстким.

— DMGregory
джерело

2

Для ігор, які вимагають від людини реагування на аудіосигнали, кожна мілісекунда, через яку звук затримується, призведе до того, що реакція людини також затягується. Хтось, хто просто переглядає фільм чи знімок сцени, може не помітити занадто багато, якщо аудіо та відео не синхронізовані, але часто важливо, а іноді і критично, щоб звук синхронізувався з тим, що очікується робити плеєр .

— суперкат
джерело

-1

Теоретично все, що перевищує 50 мс, може бути помітним, якщо мова йде про асоціацію до фотографій, в 25 мс ви можете почати чути звук та його затримку як два відокремлених звуку, тому я б сказав, що я настійно рекомендую вам залишатися менше 50 мс, і якщо ви Можна навіть зупинитися на чомусь від 5мс до 15мс, це було б дуже добре.

Сподіваюся, це допоможе тобі!

https://en.wikipedia.org/wiki/Delayed_Auditory_Feedback

— Рентгенограми
джерело

Ця відповідь не додає жодних нових порад, яких вже немає в існуючих відповідях, тому це може загрожувати викликом як просто підключення або реклами для контактної інформації вашої компанії. StackExchange не призначений для просування послуг, тому я рекомендую видалити цю частину (люди все ще можуть шукати вас за своїм ім'ям користувача) та додати більше детальних відомостей про те, чому ви рекомендуєте конкретні терміни понад те, що вказано в існуючих відповідях.

— DMGregory

Жодна з відповідей, яку ми бачили, нам не підходила, ми - команда звукорежисера, і акустика - це перше, що ми дізналися. деякі відповіді говорили більше 100 мс, інші, де говорять -100 і +85, як це навіть відповідь? -50ms або + 50ms це все-таки 50ms різниці між дією та звуком. ми намагаємося допомогти, якщо надіслати наш електронний лист таким образливим чином, ми його видалимо.

— X-Raysounds

Дивіться, наприклад, відповідь Петерсіса від 3 років тому, яка дає ту саму абсолютну верхню шапку 50 мс і рекомендує нижню, як це відповідає, або посилання на розмову Матьє Паво, що рекомендує 5 мс як ідеальну ціль. Це, здається, охоплює гаму того, що міститься у цій відповіді, якщо ви не хочете розширити рекомендації? Наприклад, якщо у посиланні на Вікіпедії є деталі, які ви вважаєте релевантними, корисною є принаймні їх узагальнення в тексті відповіді (у випадку, якщо пов’язана сторінка зміниться в майбутньому).

— DMGregory

Ах вибачте, що ми не прочитали всіх відповідей, ми просто пропустили деякі кілька, потім ми сказали те, що ми знаємо, і застосуємо це за допомогою посилання на вікіпедію, ми все ще новачки на форумі, ми намагаємось дати допомогу в звучанні пов'язані проблеми, але ми не знайшли багато ха-ха

— X-Raysounds

Не хвилюйтесь. Тренування нових користувачів - одна з причин існування цих коментарів. :) Ви отримаєте відповідь на StackExchange досить швидко - це просто означає думати про них як довгострокові довідкові ресурси, а не відповіді на форумі.

— DMGregory