MC&TT Co., Ltd

Human Activity Recognition là gì? Ứng dụng của Nhận dạng hoạt động của con người trong thực tiễn

Chia sẻ:

Nhận dạng hoạt động của con người (Human Activity Recognition – HAR) là một lĩnh vực nghiên cứu thú vị về thị giác máy tính và tương tác giữa người với máy. Trong bài viết này, chúng tôi sẽ cùng bạn tìm hiểu thêm về công nghệ tiên tiến nhất hiện nay của HAR, cùng với các phương pháp học sâu và bộ dữ liệu mở hỗ trợ tác vụ.

Human Activity Recognition là gì?

Human Activity Recognition (HAR) là một nhánh của ngành khoa học máy tính, với mục tiêu là tạo ra các hệ thống và kỹ thuật có khả năng tự động nhận dạng và phân loại các hành động của con người dựa trên dữ liệu cảm biến. HAR sử dụng các cảm biến để giải thích các cử chỉ hoặc chuyển động của cơ thể con người và xác định hoạt động hoặc chuyển động của con người.

Các hệ thống HAR thường được sử dụng trong nhiều ứng dụng khác nhau, bao gồm chăm sóc sức khỏe, vận động, an ninh, biểu diễn thể thao, v.v.

Trong khi xây dựng mô hình, mục tiêu của hệ thống HAR là dự báo nhãn hành động của một người trong hình ảnh hoặc video, thường được thực hiện thông qua nhận dạng hoạt động dựa trên video và nhận dạng hoạt động dựa trên hình ảnh.

Ước lượng tư thế (pose estimation) được sử dụng bởi một trong những hệ thống HAR dựa trên thị giác máy tính phổ biến nhất, do khả năng biểu diễn thông tin cần thiết về hành vi của con người. Điều này giúp ích trong các tác vụ như HAR, trích xuất nội dung, hiểu ngữ nghĩa, v.v. Nó sử dụng các phương pháp học sâu khác nhau, đặc biệt là các mạng thần kinh tích chập.

Một trong những thách thức lớn nhất của HAR là xem xét các hoạt động vật lý của con người, phương hướng và loại tư thế. Ví dụ: chúng ta hãy xem hình ảnh bên dưới. Có thể khó dự đoán liệu người đó đang ngã hay đang cố trồng cây chuối. Sự không chắc chắn này khuyến khích sử dụng các phương pháp mới hơn trong lĩnh vực trí tuệ nhân tạo.

‍Multi-modal learning và graph-based learning nhằm cải thiện độ chính xác và mạnh mẽ của hệ thống HAR bằng cách kết hợp các tính năng phức tạp hơn, sử dụng nhiều nguồn dữ liệu và nắm bắt mối quan hệ không gian và thời gian giữa các bộ phận cơ thể.

Một số thách thức khác của HAR bao gồm:

  • Sự chênh lệch về dữ liệu cảm biến do vị trí thiết bị
  • Biến thể chuyển động
  • Sự can thiệp của các hoạt động chồng chéo
  • Ảnh hưởng của nhiễu gây ra biến dạng
  • Phương pháp thu thập dữ liệu tốn thời gian và tốn kém

HAR hoạt động như thế nào?

HAR framework. Nguồn ảnh: V7Labs

Dưới đây là các bước cơ bản để tiến hành xây dựng mô hình HAR

Thu thập dữ liệu

Dữ liệu cho HAR thường được thu thập bởi các cảm biến được người dùng gắn vào hoặc đeo trên người. Các cảm biến HAR tiêu chuẩn bao gồm gia tốc kế (accelerometers), con quay hồi chuyển (gyroscopes), từ kế (magnetometers) và cảm biến GPS.

Gia tốc kế có thể phát hiện những thay đổi về chuyển động, hướng và định lượng vận tốc trên ba trục (x, y và z). Từ kế có thể cảm nhận từ trường và trật tự, trong khi gyroscopes có thể đo chuyển động quay và vận tốc góc. Cảm biến GPS có khả năng giúp theo dõi vị trí và chuyển động của người dùng, mặc dù chúng thường ít được sử dụng cho HAR vì mức tiêu thụ điện đáng kể và độ chính xác trong nhà hạn chế. Dữ liệu cảm biến thường được thu thập dưới dạng dữ liệu chuỗi thời gian, đối với mỗi mẫu phản ánh các phép đo cảm biến tại một thời điểm cụ thể (ví dụ: mỗi giây).

Tiền xử lý dữ liệu

Tiền xử lý dữ liệu là một giai đoạn thiết yếu trong Nhận dạng hoạt động của con người (HAR) vì nó làm sạch, biến đổi và chuẩn bị dữ liệu cảm biến thô để phân tích và lập mô hình trong tương lai. Một số quy trình chuẩn bị tiêu chuẩn bao gồm:

  • Lọc: Lọc là một kỹ thuật xử lý tín hiệu để loại bỏ nhiễu và tín hiệu không mong muốn khỏi dữ liệu cảm biến thô. Tùy thuộc vào dải tần của các dấu hiệu quan tâm, các bộ lọc điển hình được sử dụng trong HAR bao gồm bộ lọc thông thấp, bộ lọc thông cao và bộ lọc thông dải để khử nhiễu và tăng cường hình ảnh.
  • Trích xuất đặc trưng (Feature extraction): Các đặc trưng được xác định bởi loại hành động và phương thức cảm biến. Ví dụ, dữ liệu gia tốc kế có thể được sử dụng để trích xuất các đặc trưng như giá trị trung bình, độ lệch chuẩn và các thuộc tính miền tần số, chẳng hạn như các tham số biến đổi Fourier và biến đổi wavelet.
  • Lựa chọn đặc trưng (Feature selection): Quá trình chọn đặc trưng được sử dụng để giảm thiểu mức độ kích thước của không gian đặc trưng và tăng độ chính xác và hiệu quả của các thuật toán nhận dạng hoạt động. Điều này đòi hỏi phải quyết định các đặc điểm có liên quan nhất dựa trên khả năng loại trừ của chúng, liên kết với ghi nhãn hoạt động và dự phòng với các đặc trưng khác.
  • Phân đoạn (Segmentation): Để trích xuất các khía cạnh thời gian của các hoạt động, phân đoạn yêu cầu tách thông tin cảm biến thành các phân đoạn hoặc windows nhỏ gọn hơn. Kích thước và sự chồng lấp của windows được xác định bởi thời lượng và cường độ của hoạt động đang được xem. Sau đó, dữ liệu đã phân đoạn được sử dụng để tính toán các đặc điểm của từng windows.
  • Chuẩn hóa (Normalization): Chuẩn hóa là quá trình biến đổi các đặc trưng để có giá trị trung bình 0 và phương sai bằng 1 nhằm đảm bảo rằng chúng giống nhau giữa các cảm biến và người tham gia.
  • Giảm chiều (Dimensionality reduction): Principal component analysis (PCA) và t-distributed stochastic neighbor embedding (t-SNE) là các kỹ thuật giảm chiều có khả năng giảm thiểu mức độ kích thước của không gian đối tượng địa lý và loại bỏ các đặc trưng dư thừa hoặc không liên quan.
  • Missing Value Imputation: Imputation là việc điền vào dữ liệu cảm biến không đầy đủ. Việc không hoàn thành có thể xảy ra do sự cố thiết bị hoặc lỗi truyền dữ liệu. Các phương pháp quy nạp đơn giản có thể được sử dụng cho các giá trị bị thiếu, bao gồm phép nội suy trung vị hoặc trung vị (mean hoặc median interpolation)

Chuẩn bị dữ liệu là một giai đoạn quan trọng trong HAR vì nó ảnh hưởng đến độ chính xác và độ tin cậy của các mô hình nhận dạng hoạt động.

Lựa chọn mô hình

Một số thuật toán học máy có thể được sử dụng để nhận dạng các hoạt động của con người. Sự lựa chọn phải phụ thuộc vào độ phức tạp của dữ liệu, tài nguyên có sẵn và tiêu chí hiệu suất. Dưới đây là một số mô hình học máy HAR phổ biến:

  • Decision trees: Thuật toán Decision trees là mô hình đơn giản giải quyết các tương tác phi tuyến tính giữa các đặc trưng và nhãn. Chúng có thể được sử dụng cho các tác vụ phân loại trong Nhận dạng hoạt động của con người dựa trên dữ liệu cảm biến, chẳng hạn như số đọc gia tốc kế hoặc gyroscope. Decision trees rất dễ diễn giải và có thể xử lý cả dữ liệu liên tục và dữ liệu phân loại, làm cho chúng hữu ích để hiểu rõ hơn về các đặc trưng quan trọng nhất của một tác vụ phân loại nhất định. Tuy nhiên, chúng có thể gặp tình trạng overfitting và thiếu sót trong các tình huống mà dữ liệu đầu vào rất phức tạp hoặc nhiễu.
  • Random forest: Random forest là tập hợp cây quyết định có thể quản lý dữ liệu nhiễu và nhiều chiều. Chúng giải quyết tình trạng overfitting và có thể giải quyết các giá trị còn thiếu. Mặt khác, Random forest có thể sử dụng nhiều tài nguyên tính toán hơn so với decision trees và có thể cần hoạt động tốt hơn trên các tập dữ liệu nhỏ.
  • Support Vector Machines: SVM là các mô hình mạnh mẽ xử lý dữ liệu tuyến tính và phi tuyến tính. Chúng có thể xử lý dữ liệu nhiều chiều trong khi ít bị overfitting. Tuy nhiên, chúng có thể cần tinh chỉnh siêu tham số cẩn thận và có thể tốn kém về mặt tính toán với bộ dữ liệu lớn.
  • Hidden Markov Models: HMM là mô hình thống kê được sử dụng trong HAR để nhận dạng các mẫu tuần tự trong đầu vào cảm biến. HMM rất hữu ích đối với dữ liệu chuỗi thời gian và có thể hiệu quả đối với các hoạt động phức tạp có nhiều bước.
  • Convolutional Neural Networks (CNN): CNN là thuật toán học sâu rất phù hợp với dữ liệu hình ảnh và chuỗi thời gian, chẳng hạn như dữ liệu gyroscope và gia tốc kế. Các thuật toán này có thể xử lý hiệu quả các đặc trưng phân cấp từ dữ liệu thô và quản lý các mẫu dữ liệu phức tạp nhưng có thể cần nhiều sức mạnh tính toán hơn các mô hình khác và dễ bị overfitting.
  • Recurrent Neural Networks (RNN): RNN là mô hình học sâu xử lý dữ liệu tuần tự như chuỗi thời gian. Chúng có thể xử lý các chuỗi có độ dài thay đổi và phát hiện các kết nối tạm thời trong dữ liệu. Tuy nhiên, chúng có thể gặp thách thức với vấn đề vanishing gradient và yêu cầu khởi tạo và chuẩn hóa cẩn thận.

Triển khai mô hình

Các hệ thống Nhận dạng hoạt động của con người (HAR) được triển khai bằng một trong hai phương pháp:

  • Triển khai cảm biến bên ngoài: Trong phương pháp này, các cảm biến bên ngoài (bao gồm camera hoặc thiết bị phát hiện chuyển động) được đặt trong môi trường xung quanh để thu thập thông tin về các hoạt động của con người. Một mô hình HAR chạy trên một máy tính khác sẽ xử lý dữ liệu cảm biến. Phương pháp này rất tuyệt vời để theo dõi các hành động ở những nơi công cộng hoặc khi người bị theo dõi không thể đeo thiết bị.
  • Triển khai cảm biến trên cơ thể: Tại đây, người được quan sát đeo các cảm biến (chẳng hạn như gia tốc kế đeo ở cổ tay) để nắm bắt thông tin về các hoạt động của con người. Mô hình HAR, có thể cục bộ trên đồng hồ thông minh hoặc hệ thống máy tính ở xa, xử lý dữ liệu cảm biến. Phương pháp này giám sát hiệu quả hoạt động ở những địa điểm riêng tư hoặc khi người bị giám sát có thể đeo một thiết bị.

Ứng dụng của HAR

HAR đã được sử dụng trong nhiều lĩnh vực. Hãy xem qua một vài ví dụ hàng đầu.

  • Phân tích thành tích thể thao

Human Activity Recognition (HAR) có thể phân tích thành tích thể thao theo nhiều cách khác nhau. Nó có thể được sử dụng để theo dõi và phân tích các chuyển động của vận động viên trong quá trình thi đấu và tập luyện, dự đoán các rủi ro chấn thương mới, đánh giá hiệu quả của các chương trình tập luyện khác nhau, theo dõi sự phát triển của từng vận động viên và kiểm tra các thành phần chiến thuật và chiến lược của các môn thể thao đồng đội.

  • Ô tô tự lái

Nhận dạng hoạt động của con người (HAR) có nhiều ứng dụng trong ô tô tự lái. HAR có thể được sử dụng để phát hiện người và các phương tiện khác trên đường, tăng hiệu quả và tính bảo mật của ô tô tự lái. HAR cũng có thể nhận ra hành vi của người lái xe, chẳng hạn như tín hiệu tay và chuyển động của đầu, có thể giúp ô tô tự lái tương tác với tài xế.

  • Tương tác giữa con người và máy tính

Nhận dạng hoạt động của con người có thể được sử dụng để xác định và phân loại các cử chỉ và chuyển động của con người, hay cải thiện khả năng sử dụng và khả năng truy cập của hệ thống máy tính.

HAR có thể được sử dụng để kích hoạt các lệnh dựa trên cử chỉ của các thiết bị điện tử như điện thoại thông minh và TV thông minh, dẫn đến giao diện người dùng thậm chí còn tự nhiên và dễ hiểu hơn. HAR cũng có thể cung cấp tính năng tự động hóa dựa trên giọng nói của các hệ thống máy tính, chẳng hạn như trợ lý cá nhân ảo và chatbot, cho phép giao tiếp thực tế và hiệu quả hơn với máy tính.

Hơn nữa, HAR có thể theo dõi sức khỏe của người dùng máy tính bằng cách xác định và phân loại các chuyển động và hành vi thể chất của họ, điều này có thể giúp ngăn ngừa và giảm tác hại của việc sử dụng máy tính trong thời gian dài, bao gồm mỏi mắt, đau lưng, v.v.

  • Giám sát thông minh

Vì cho phép phân tích và giải thích video tự động, HAR đã trở thành một công cụ ngày càng phù hợp trong giám sát thông minh. Nó có thể cải thiện khả năng bảo vệ và an ninh của các khu vực công cộng và cơ sở hạ tầng quan trọng.

HAR có thể nhận biết và phân loại các hoạt động của con người như đi bộ, chạy, lảng vảng và thậm chí cả những hành động đáng ngờ như mang theo vũ khí hoặc hàng hóa. Hệ thống này có thể phát hiện các kiểu hoạt động bất thường hoặc lặp đi lặp lại, chẳng hạn như nán lại trong khu vực kín hoặc bỏ quên một đồ vật và gửi thông báo cho nhân viên an ninh.

Hơn nữa, trong thời gian thực, HAR có thể xác định những người, đặc biệt là ở những địa điểm đông đúc, bằng cách đánh giá bước đi, tư thế và các đặc điểm thể chất khác của họ, ngay cả khi khuôn mặt bị che khuất. Hệ thống này cũng có thể theo dõi mọi người trong toàn bộ khu vực giám sát, cho phép các nhân viên an ninh tìm và theo dõi các nghi phạm tiềm năng.

Các bộ dữ liệu HAR

  • Kinetics-700

Tham khảo tại: https://deepmind.com/research/open-source/kinetics 

Một bộ dữ liệu video lớn, chất lượng cao gồm các liên kết URL tới khoảng 650000 video clip Youtube bao gồm 700 lớp hành động của con người. Các video bao gồm các tương tác giữa người và vật, cũng như tương tác giữa người với người. Bộ dữ liệu Kinetics rất phù hợp để đào tạo các mô hình nhận dạng hành động của con người.

  • Volleyball action recognition dataset

Tham khảo tại: https://www.v7labs.com/open-datasets/volleyball 

Đây là một bộ dữ liệu nhận dạng hành động video. Nó có 4830 khung chú thích được lựa chọn cẩn thận từ 55 video với chín nhãn hành động của người chơi và tám nhãn hoạt động nhóm. Nó chứa các chú thích hoạt động nhóm cũng như các chú thích hoạt động cá nhân.

  • Bộ dữ liệu ARID

Tham khảo tại: https://www.v7labs.com/open-datasets/arid-dataset

Bộ dữ liệu Nhận dạng hành động trong bóng tối (ARID) là bộ dữ liệu chuẩn để nhận dạng hành động trong điều kiện ánh sáng yếu. Với hơn 3.780 video clip có 11 danh mục hành động, nó trở thành bộ dữ liệu đầu tiên tập trung vào hành động của con người trong các video tối. Bộ dữ liệu ARID là một nguồn tài nguyên quan trọng dành cho các nhà nghiên cứu và các học viên đang nỗ lực cải thiện các thuật toán nhận dạng hành động trong điều kiện ánh sáng yếu.

  • DAHLIA

Tham khảo tại: https://www.v7labs.com/open-datasets/dahlia 

Bộ dữ liệu DAHLIA tập trung vào nhận dạng hoạt động của con người đối với các dịch vụ nhà thông minh, chẳng hạn như hỗ trợ người dùng.

Video được quay trong điều kiện thực tế, với 3 cảm biến Kinect v2 được định vị giống như trong bối cảnh thực. Các hoạt động tầm xa được thực hiện một cách tự do (người tham gia chỉ nhận được một số hướng dẫn) và theo trình tự liên tục (không cắt xén), dẫn đến các video dài (trung bình 40 phút cho mỗi chủ đề).

  • Human Activity Recognition Using Smartphones Data Set

Tham khảo tại: https://archive.ics.uci.edu/ml/datasets/human+activity+recognition+using+smartphones 

Tập dữ liệu Nhận dạng hoạt động của con người bằng điện thoại thông minh là tập dữ liệu có sẵn công khai chứa các chỉ số cảm biến từ gia tốc kế và gyroscope của điện thoại thông minh được ghi lại về sáu hoạt động: đi bộ, đi bộ lên cầu thang, đi bộ xuống cầu thang, ngồi, đứng và nằm.

Bộ dữ liệu bao gồm các phép đo gia tốc tuyến tính 3 trục và vận tốc góc 3 trục được ghi lại ở tốc độ không đổi 50Hz. Dữ liệu cảm biến được thu thập từ 30 tình nguyện viên đeo điện thoại thông minh Samsung Galaxy S II trên thắt lưng khi thực hiện các hoạt động. Mỗi tình nguyện viên được yêu cầu thực hiện từng hoạt động trong khoảng 2-3 phút, dẫn đến 10.299 trường hợp.

Tổng kết

HAR mang lại nhiều ứng dụng có ích cho cuộc sống con người. Theo dõi sức khỏe có thể được thực hiện thông qua các thiết bị đeo theo dõi hoạt động thể chất, nhịp tim và chất lượng giấc ngủ. Trong nhà thông minh, các giải pháp dựa trên HAR cho phép tiết kiệm năng lượng và tạo sự thoải mái cho cá nhân bằng cách phát hiện khi một người ra vào phòng và điều chỉnh ánh sáng hoặc nhiệt độ. Đi kèm với đó là nhiều bộ dữ liệu có sẵn được chia sẻ công khai, việc tìm kiếm dữ liệu phục vụ mục đích nghiên cứu và phát triển HAR là rất đơn giản.

Bạn đang xem: Human Activity Recognition là gì? Ứng dụng của Nhận dạng hoạt động của con người trong thực tiễn
Bài trước Bài sau
VIẾT BÌNH LUẬN CỦA BẠN

Địa chỉ email của bạn sẽ được bảo mật. Các trường bắt buộc được đánh dấu *

Đăng nhập
Đăng ký
Hotline: 0904251826
x