Розпізнавання діяльності людини за допомогою набору даних про смартфон


9

Я новачок у цій спільноті, і, сподіваюся, моє запитання тут добре впишеться. Як частина мого курсу бакалаврської аналітики даних я вирішив зробити проект з розпізнавання людської діяльності за допомогою наборів даних смартфонів. Наскільки мене хвилює ця тема стосується машинного навчання та підтримки векторних машин. Я ще не добре знайомий з цими технологіями, тому мені знадобиться допомога.

Я вирішив наслідувати цю ідею проекту http://www.inf.ed.ac.uk/teaching/courses/dme/2014/datasets.html (перший проект вгорі) Мета проекту - визначити, яка діяльність людини залучення (наприклад, WALKING, WALKING_UPSTAIRS, WALKING_DOWNSTAIRS, SITTING, STANDING, LYING) із даних, записаних смартфоном (Samsung Galaxy S II) на талії предмета. Використовуючи вбудований акселерометр та гіроскоп, дані включають 3-осьове лінійне прискорення та 3-осьову кутову швидкість із постійною швидкістю 50 Гц.

Весь набір даних надається в одній папці з деяким описом та ярликами функцій. Дані поділяються на файли "тест" та "поїзд", у яких дані представлені у такому форматі:

  2.5717778e-001 -2.3285230e-002 -1.4653762e-002 -9.3840400e-001 -9.2009078e-001 -6.6768331e-001 -9.5250112e-001 -9.2524867e-001 -6.7430222e-001 -8.9408755e-001 -5.5457721e-001 -4.6622295e-001  7.1720847e-001  6.3550240e-001  7.8949666e-001 -8.7776423e-001 -9.9776606e-001 -9.9841381e-001 -9.3434525e-001 -9.7566897e-001 -9.4982365e-001 -8.3047780e-001 -1.6808416e-001 -3.7899553e-001  2.4621698e-001  5.2120364e-001 -4.8779311e-001  4.8228047e-001 -4.5462113e-002  2.1195505e-001 -1.3489443e-001  1.3085848e-001 -1.4176313e-002 -1.0597085e-001  7.3544013e-002 -1.7151642e-001  4.0062978e-002  7.6988933e-002 -4.9054573e-001 -7.0900265e-001

І це лише дуже малий зразок того, що містить файл.

Я насправді не знаю, що представляють ці дані і як їх можна інтерпретувати. Для аналізу, класифікації та кластеризації даних, які інструменти мені потрібно використовувати? Чи є якийсь спосіб я помістити ці дані в excel із включеними мітками і, наприклад, використовувати R або python для вилучення зразкових даних та працювати над цим?

Будь-які підказки / поради будуть дуже вдячні.

Відповіді:


8

Визначення набору даних на цій сторінці:

Інформація про атрибути внизу

або ви можете побачити всередині папки ZIP файл з назвою Activity_labels, який має заголовки стовпців всередині нього, переконайтеся, що ви уважно прочитали README, в ньому є хороша інформація. Ви можете легко ввести .csvфайл в R за допомогою read.csvкоманди.

Наприклад, якщо ви введете ім'я файлу, samsungdataви можете відкрити R та виконати цю команду:

data <- read.csv("directory/where/file/is/located/samsungdata.csv", header = TRUE)

Або якщо ви вже всередині робочого каталогу в R, ви можете просто виконати наступне

data <- read.csv("samsungdata.csv", header = TRUE)

Де ім'я dataможна змінити на те, що ви хочете назвати набір даних.


Розумію. Я вивчив файл README, однак досі не можу зрозуміти, як можна прочитати дані, які він самостійно може. Наприклад, поїзд / X_train.txt'file являє собою навчальний набір (вибіркові дані, які я показав у публікації, походять з цього файлу).
Якубі

Мені здається, що набір даних досить широкий, в ньому міститься 561 змінний на рядок, який перелічено всередині файлу features.txt. Я вважаю, що саме це ви маєте на увазі.
MCP_infiltrator

Отже, кожна зі змінних з файлу "особливості" відповідає кожному стовпцю, наприклад, у файлі "x-test.txt", чи я помиляюся?
Якубі

Ось як я це сприймаю. З того, що я міг зібрати з README, це те, що файл містить.
MCP_infiltrator

@Jakubee Так. У features.txtфайлі є 561 ім'я рядків / змінних, а у файлі - 561 стовпчик X_train.txt, по одному для кожної змінної.
Marco13

5

Схоже, цей (або дуже подібний набір даних) використовується для курсів Coursera. Очищення цього набору даних є завданням для отримання та очищення даних , але він також використовується для дослідження випадку для аналізу дослідницьких даних . Відео з цього кейсу доступне у відеороликах за тиждень 4 курсу курсу EDA. Це може допомогти вам почати з цих даних.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.