3D оцінка положення за допомогою 2D камери

У мене камера (iPhone), у мене на зображенні є об’єкт 3D управління, який дуже добре знаю його властивості. (Мій об’єкт управління). У русі також є вторинний об’єкт. Кінцева мета - встановити 3D-траєкторію об'єкта, що рухається, за певний проміжок часу. (Відстеження)

Мені подобається питати, чи можу я дізнатися?

Відстань телефону до об'єкта управління (заради обговорення, припустимо, що камера знаходиться на певній висоті, і певна відстань не відома жодної з них, але камера перпендикулярна відомій поверхні)
Вторинний об'єкт, де я можу знайти об'єкт у кожному наступному кадрі. Моя мета - оцінити її траєкторію 3D, як я вже вказав вище.

Питання про бонус: ми можемо зробити систему такою, щоб відстань телефонів до об'єкта управління можна було встановити (хоча це не є кращим), чи допоможе це мені з другою точкою?

tracking image

— Ктунсер
джерело

Ви знайомі з літературою в цій галузі? Якщо ні, то я можу порекомендувати деякі документи, але попередити: математика займається.

— Емре

@emre, було б чудово, якби ви могли вказати кілька покажчиків. Математика не проблема, ми любимо математику.

— Ктунсер

Дивіться Вікіпедію , Останні досягнення та тенденції у візуальному відстеженні: огляд [PDF], байєсівське відстеження для Video Analytics: огляд

— Емре

@emre Я швидко поглянув на оглядовий документ. Це більше для відстеження, я можу легко відстежувати об’єкт, це не проблема. Я можу зафіксувати, в якому пікселі знаходиться об’єкт. Питання в тому, де об’єкт знаходиться в 3D-просторі. Чи можливо це? В основному, у мене в 3D-просторі є ще один об'єкт, який я знаю, властивості якого я можу використовувати як орієнтир, але це все.

— Ktuncer

Вибачте, неправильний папір. Можливо, ви можете адаптувати 3D-відстеження траєкторій на основі зору для невідомих середовищ [PDF]? Вони використовують стереокамеру; це можливість для вас?

— Емре

Якщо об'єкт має 6 відомих точок (відомі тривимірні координати, і ), ви можете обчислити розташування камери, пов'язане з системою координат об'єктів. $X, Y$ $Z$

Спочатку кілька основ.

Однорідна координата - це векторне представлення евклідової координати до якої ми додали так званий коефіцієнт масштабу такий, що однорідна координата . У власних обчисленнях намагайтеся зберегти якомога частіше (це означає, що ви "нормалізуєте" однорідну координату, поділивши її з її останнім елементом: ). Ми також можемо використовувати однорідну презентацію для 2D точок, таких що (пам'ятайте, що ці і $(X,Y,Z)$ $\omega$ $\textbf{X} = \omega \begin{bmatrix}X & Y & Z & 1\end{bmatrix}^T$ $\omega=1$ $\textbf{X} \leftarrow \frac{\textbf{X}}{\omega}$ $\textbf{x} = \omega\begin{bmatrix}X & Y & 1\end{bmatrix}$ $\omega, X,Y$ $Z$ різні для кожної точки, будь то 2D або 3D точка). Однорідне подання координат полегшує математику.

Матриця камери - це матриця проекції від 3D-світу до датчика зображення: $3\times4$

x = P X

$\textbf{x} = P\textbf{X}$

Де - точка датчика зображення (з піксельними одиницями), а - проектована 3D-точка (скажемо, що вона має міліметри як свої одиниці). $\textbf{x}$ $\textbf{X}$

Ми пам’ятаємо, що перехресний добуток між двома 3-векторами можна визначити як множення матричного вектора таким чином, що:

v \times u = (v)_{x} u = [\begin{matrix} 0 & - v_{3} & v_{2} \\ v_{3} & 0 & - v_{1} \\ - v_{2} & v_{1} & 0 \end{matrix}] u

$\textbf{v} \times \textbf{u} = \\ ( \textbf{v} )_x \textbf{u} = \\ \begin{bmatrix} 0 & -v_3& v_2 \\ v_3 & 0 & -v_1 \\ -v_2 & v_1 & 0 \end{bmatrix} \textbf{u}$

Корисно також зазначити, що перехресне виробництво . $\textbf{v} \times \textbf{v} = \textbf{0}$

Тепер спробуємо розв’язати матрицю проекції з попередніх рівнянь. Дозволяє помножити рівняння проекції з лівої сторони на s перехресну матрицю продукту: $P$ $\textbf{x}$

(x)_{x} x = (x)_{x} P X = 0

$(\textbf{x})_x\textbf{x} = (\textbf{x})_xP\textbf{X} = \textbf{0}$

Ага! Результат повинен бути нульовим вектором. Якщо ми зараз відкриємо рівняння, отримаємо:

[\begin{matrix} 0 & - w & y \\ w & 0 & - x \\ - y & x & 0 \end{matrix}] [\begin{matrix} P_{1, 1} & P_{1, 2} & P_{1, 3} & P_{1, 4} \\ P_{2, 1} & P_{2, 2} & P_{2, 3} & P_{2, 4} \\ P_{3, 1} & P_{3, 2} & P_{3, 3} & P_{3, 4} \end{matrix}] X = [\begin{matrix} P_{3, 4} W y - P_{2, 1} X w - P_{2, 2} Y w - P_{2, 4} W w + P_{3, 1} X y - P_{2, 3} Z w + P_{3, 2} Y y + P_{3, 3} Z y \\ P_{1, 4} W w + P_{1, 1} X w - P_{3, 4} W x + P_{1, 2} Y w - P_{3, 1} X x + P_{1, 3} Z w - P_{3, 2} Y x - P_{3, 3} Z x \\ P_{2, 4} W x + P_{2, 1} X x - P_{1, 4} W y - P_{1, 1} X y + P_{2, 2} Y x - P_{1, 2} Y y + P_{2, 3} Z x - P_{1, 3} Z y \end{matrix}] = 0

$\begin{bmatrix} 0 & -w& y \\ w & 0 & -x \\ -y & x & 0 \end{bmatrix} \begin{bmatrix} P_{1,1} & P_{1,2} & P_{1,3} & P_{1,4} \\ P_{2,1} & P_{2,2} & P_{2,3} & P_{2,4} \\ P_{3,1} & P_{3,2} & P_{3,3} & P_{3,4} \end{bmatrix} \textbf{X} \\ = \begin{bmatrix} P_{3,4} W y - P_{2,1} X w - P_{2,2} Y w - P_{2,4} W w + P_{3,1} X y - P_{2,3} Z w + P_{3,2} Y y + P_{3,3} Z y \\ P_{1,4} W w + P_{1,1} X w - P_{3,4} W x + P_{1,2} Y w - P_{3,1} X x + P_{1,3} Z w - P_{3,2} Y x - P_{3,3} Z x \\ P_{2,4} W x + P_{2,1} X x - P_{1,4} W y - P_{1,1} X y + P_{2,2} Y x - P_{1,2} Y y + P_{2,3} Z x - P_{1,3} Z y \end{bmatrix} = \textbf{0}$

Маючи трохи рефакторингу, ми можемо отримати проекційну матрицю поза матриці: $P$

[\begin{matrix} 0 & 0 & 0 & 0 & - X w & - Y w & - Z w & - W w & X y & Y y & Z y & W y \\ X w & Y w & Z w & W w & 0 & 0 & 0 & 0 & - X x & - Y x & - Z x & - W x \\ - X y & - Y y & - Z y & - W y & X x & Y x & Z x & W x & 0 & 0 & 0 & 0 \end{matrix}] [\begin{matrix} P_{1} \\ P_{2} \\ P_{3} \end{matrix}] = 0

$\tiny \begin{bmatrix} 0 & 0 & 0 & 0 & - X\, w & - Y\, w & - Z\, w & - W\, w & X\, y & Y\, y & Z\, y & W\, y\\ X\, w & Y\, w & Z\, w & W\, w & 0 & 0 & 0 & 0 & - X\, x & - Y\, x & - Z\, x & - W\, x\\ - X\, y & - Y\, y & - Z\, y & - W\, y & X\, x & Y\, x & Z\, x & W\, x & 0 & 0 & 0 & 0 \end{bmatrix} \begin{bmatrix} \textbf{P}_1 \\ \textbf{P}_2 \\ \textbf{P}_3 \\ \end{bmatrix} = \textbf{0}$

Де є транспонована : го рядка матриці камери . Останній рядок попереднього (великого) матричного рівняння є лінійним поєднанням перших двох рядків, тому він не приносить додаткової інформації, і його можна залишати поза увагою. $\textbf{P}_n$ $n$ $P$

Невелика пауза, щоб ми могли зібрати свої труднощі. Зауважте, що попереднє матричне рівняння має бути сформовано для кожного відомого 3D-> 2D відповідності (їх повинно бути принаймні 6).

Тепер для кожної точкової відповідності обчисліть перші два ряди матриці вище, матриці один на одного і отримаєте нову матрицю для якої $2\times12$ $A$

A [\begin{matrix} P_{1} \\ P_{2} \\ P_{3} \end{matrix}] = 0

$A\begin{bmatrix} \textbf{P}_1 \\ \textbf{P}_2 \\ \textbf{P}_3 \\ \end{bmatrix} = \textbf{0}$

Оскільки у нас є 12 невідомих і (принаймні) 12 рівнянь, це можна вирішити. Проблема полягає лише в тому, що ми не хочемо мати тривіальної відповіді, де

[\begin{matrix} P_{1} \\ P_{2} \\ P_{3} \end{matrix}] = 0

$\begin{bmatrix} \textbf{P}_1 \\ \textbf{P}_2 \\ \textbf{P}_3 \\ \end{bmatrix} = \textbf{0}$

На щастя, ми можемо використовувати сингулярне розкладання значення (SVD) для примушування

‖ [\begin{matrix} P_{1} \\ P_{2} \\ P_{3} \end{matrix}] ‖ = 1

$\| \begin{bmatrix} \textbf{P}_1 \\ \textbf{P}_2 \\ \textbf{P}_3 \\ \end{bmatrix} \|=1$

Отже, щоб розв’язати рівняння, обчисліть SVD матриці і виберіть сингулярний вектор, що відповідає найменшому власному значенню. Цей вектор є нульовим вектором матриці A, а також рішенням для матриці камери . Просто помістити значення і форма . $A$ $P$ $\begin{bmatrix} \textbf{P}_1 & \textbf{P}_2 & \textbf{P}_3 \end{bmatrix}^T$ $P$

Тепер ви хотіли знати відстань до об’єкта. визначається як: $P$

P = K [\begin{matrix} R & - R C \end{matrix}]

$P = K\begin{bmatrix}R & -R\textbf{C}\end{bmatrix}$

де - розташування камери відносно походження об'єктів. Це можна вирішити з шляхом обчислення нульового вектора s. $\textbf{C}$ $P$ $P$

(Хартлі, Зісерман - Геометрія декількох поглядів у комп'ютерному зорі)

Нарешті, обчислюючи розташування камер для двох кадрів, ви можете обчислити невідомі місця розташування об'єктів (або розташування деяких точок об'єкта), вирішивши два рівняння для : $X$

x_{1} = P_{1} X x_{2} = P_{2} X

$\textbf{x}_1 = P_1 \textbf{X} \\ \textbf{x}_2 = P_2 \textbf{X} \\$

Це приблизно так само, як ми вирішили матриці камери:

(x_{1})_{x} P_{1} X = 0 (x_{2})_{x} P_{2} X = 0

$(\textbf{x}_1)_xP_1\textbf{X} = \textbf{0} \\ (\textbf{x}_2)_xP_2\textbf{X} = \textbf{0} \\$

І так далі.

— buq2
джерело

Чи правильно сказати, що ваш спосіб обчислити 3D-положення камери еквівалентний OpenCV soluPnp? docs.opencv.org/2.4/modules/calib3d/doc/… (шукайте на сторінціPrePPP на сторінці. Я не можу вставити URL-адресу з #)

— gregoiregentil