Trang chủ Liên hệ

Human Activity Recognition là gì? Ứng dụng của Nhận dạng hoạt động của con người trong thực tiễn

CÔNG TY TNHH THIẾT BỊ ĐO LƯỜNG VÀ ĐIỀU KHIỂN 27/02/2024

Nhận dạng hoạt động của con người (Human Activity Recognition – HAR) là một lĩnh vực nghiên cứu thú vị về thị giác máy tính và tương tác giữa người với máy. Trong bài viết này, chúng tôi sẽ cùng bạn tìm hiểu thêm về công nghệ tiên tiến nhất hiện nay của HAR, cùng với các phương pháp học sâu và bộ dữ liệu mở hỗ trợ tác vụ.

Human Activity Recognition là gì?

Human Activity Recognition (HAR) là một nhánh của ngành khoa học máy tính, với mục tiêu là tạo ra các hệ thống và kỹ thuật có khả năng tự động nhận dạng và phân loại các hành động của con người dựa trên dữ liệu cảm biến. HAR sử dụng các cảm biến để giải thích các cử chỉ hoặc chuyển động của cơ thể con người và xác định hoạt động hoặc chuyển động của con người.

Các hệ thống HAR thường được sử dụng trong nhiều ứng dụng khác nhau, bao gồm chăm sóc sức khỏe, vận động, an ninh, biểu diễn thể thao, v.v.

Trong khi xây dựng mô hình, mục tiêu của hệ thống HAR là dự báo nhãn hành động của một người trong hình ảnh hoặc video, thường được thực hiện thông qua nhận dạng hoạt động dựa trên video và nhận dạng hoạt động dựa trên hình ảnh.

Ước lượng tư thế (pose estimation) được sử dụng bởi một trong những hệ thống HAR dựa trên thị giác máy tính phổ biến nhất, do khả năng biểu diễn thông tin cần thiết về hành vi của con người. Điều này giúp ích trong các tác vụ như HAR, trích xuất nội dung, hiểu ngữ nghĩa, v.v. Nó sử dụng các phương pháp học sâu khác nhau, đặc biệt là các mạng thần kinh tích chập.

Một trong những thách thức lớn nhất của HAR là xem xét các hoạt động vật lý của con người, phương hướng và loại tư thế. Ví dụ: chúng ta hãy xem hình ảnh bên dưới. Có thể khó dự đoán liệu người đó đang ngã hay đang cố trồng cây chuối. Sự không chắc chắn này khuyến khích sử dụng các phương pháp mới hơn trong lĩnh vực trí tuệ nhân tạo.

‍Multi-modal learning và graph-based learning nhằm cải thiện độ chính xác và mạnh mẽ của hệ thống HAR bằng cách kết hợp các tính năng phức tạp hơn, sử dụng nhiều nguồn dữ liệu và nắm bắt mối quan hệ không gian và thời gian giữa các bộ phận cơ thể.

Một số thách thức khác của HAR bao gồm:

HAR hoạt động như thế nào?

HAR framework. Nguồn ảnh: V7Labs

Dưới đây là các bước cơ bản để tiến hành xây dựng mô hình HAR

Thu thập dữ liệu

Dữ liệu cho HAR thường được thu thập bởi các cảm biến được người dùng gắn vào hoặc đeo trên người. Các cảm biến HAR tiêu chuẩn bao gồm gia tốc kế (accelerometers), con quay hồi chuyển (gyroscopes), từ kế (magnetometers) và cảm biến GPS.

Gia tốc kế có thể phát hiện những thay đổi về chuyển động, hướng và định lượng vận tốc trên ba trục (x, y và z). Từ kế có thể cảm nhận từ trường và trật tự, trong khi gyroscopes có thể đo chuyển động quay và vận tốc góc. Cảm biến GPS có khả năng giúp theo dõi vị trí và chuyển động của người dùng, mặc dù chúng thường ít được sử dụng cho HAR vì mức tiêu thụ điện đáng kể và độ chính xác trong nhà hạn chế. Dữ liệu cảm biến thường được thu thập dưới dạng dữ liệu chuỗi thời gian, đối với mỗi mẫu phản ánh các phép đo cảm biến tại một thời điểm cụ thể (ví dụ: mỗi giây).

Tiền xử lý dữ liệu

Tiền xử lý dữ liệu là một giai đoạn thiết yếu trong Nhận dạng hoạt động của con người (HAR) vì nó làm sạch, biến đổi và chuẩn bị dữ liệu cảm biến thô để phân tích và lập mô hình trong tương lai. Một số quy trình chuẩn bị tiêu chuẩn bao gồm:

Chuẩn bị dữ liệu là một giai đoạn quan trọng trong HAR vì nó ảnh hưởng đến độ chính xác và độ tin cậy của các mô hình nhận dạng hoạt động.

Lựa chọn mô hình

Một số thuật toán học máy có thể được sử dụng để nhận dạng các hoạt động của con người. Sự lựa chọn phải phụ thuộc vào độ phức tạp của dữ liệu, tài nguyên có sẵn và tiêu chí hiệu suất. Dưới đây là một số mô hình học máy HAR phổ biến:

Triển khai mô hình

Các hệ thống Nhận dạng hoạt động của con người (HAR) được triển khai bằng một trong hai phương pháp:

Ứng dụng của HAR

HAR đã được sử dụng trong nhiều lĩnh vực. Hãy xem qua một vài ví dụ hàng đầu.

Human Activity Recognition (HAR) có thể phân tích thành tích thể thao theo nhiều cách khác nhau. Nó có thể được sử dụng để theo dõi và phân tích các chuyển động của vận động viên trong quá trình thi đấu và tập luyện, dự đoán các rủi ro chấn thương mới, đánh giá hiệu quả của các chương trình tập luyện khác nhau, theo dõi sự phát triển của từng vận động viên và kiểm tra các thành phần chiến thuật và chiến lược của các môn thể thao đồng đội.

Nhận dạng hoạt động của con người (HAR) có nhiều ứng dụng trong ô tô tự lái. HAR có thể được sử dụng để phát hiện người và các phương tiện khác trên đường, tăng hiệu quả và tính bảo mật của ô tô tự lái. HAR cũng có thể nhận ra hành vi của người lái xe, chẳng hạn như tín hiệu tay và chuyển động của đầu, có thể giúp ô tô tự lái tương tác với tài xế.

Nhận dạng hoạt động của con người có thể được sử dụng để xác định và phân loại các cử chỉ và chuyển động của con người, hay cải thiện khả năng sử dụng và khả năng truy cập của hệ thống máy tính.

HAR có thể được sử dụng để kích hoạt các lệnh dựa trên cử chỉ của các thiết bị điện tử như điện thoại thông minh và TV thông minh, dẫn đến giao diện người dùng thậm chí còn tự nhiên và dễ hiểu hơn. HAR cũng có thể cung cấp tính năng tự động hóa dựa trên giọng nói của các hệ thống máy tính, chẳng hạn như trợ lý cá nhân ảo và chatbot, cho phép giao tiếp thực tế và hiệu quả hơn với máy tính.

Hơn nữa, HAR có thể theo dõi sức khỏe của người dùng máy tính bằng cách xác định và phân loại các chuyển động và hành vi thể chất của họ, điều này có thể giúp ngăn ngừa và giảm tác hại của việc sử dụng máy tính trong thời gian dài, bao gồm mỏi mắt, đau lưng, v.v.

Vì cho phép phân tích và giải thích video tự động, HAR đã trở thành một công cụ ngày càng phù hợp trong giám sát thông minh. Nó có thể cải thiện khả năng bảo vệ và an ninh của các khu vực công cộng và cơ sở hạ tầng quan trọng.

HAR có thể nhận biết và phân loại các hoạt động của con người như đi bộ, chạy, lảng vảng và thậm chí cả những hành động đáng ngờ như mang theo vũ khí hoặc hàng hóa. Hệ thống này có thể phát hiện các kiểu hoạt động bất thường hoặc lặp đi lặp lại, chẳng hạn như nán lại trong khu vực kín hoặc bỏ quên một đồ vật và gửi thông báo cho nhân viên an ninh.

Hơn nữa, trong thời gian thực, HAR có thể xác định những người, đặc biệt là ở những địa điểm đông đúc, bằng cách đánh giá bước đi, tư thế và các đặc điểm thể chất khác của họ, ngay cả khi khuôn mặt bị che khuất. Hệ thống này cũng có thể theo dõi mọi người trong toàn bộ khu vực giám sát, cho phép các nhân viên an ninh tìm và theo dõi các nghi phạm tiềm năng.

Các bộ dữ liệu HAR

Tham khảo tại: https://deepmind.com/research/open-source/kinetics 

Một bộ dữ liệu video lớn, chất lượng cao gồm các liên kết URL tới khoảng 650000 video clip Youtube bao gồm 700 lớp hành động của con người. Các video bao gồm các tương tác giữa người và vật, cũng như tương tác giữa người với người. Bộ dữ liệu Kinetics rất phù hợp để đào tạo các mô hình nhận dạng hành động của con người.

Tham khảo tại: https://www.v7labs.com/open-datasets/volleyball 

Đây là một bộ dữ liệu nhận dạng hành động video. Nó có 4830 khung chú thích được lựa chọn cẩn thận từ 55 video với chín nhãn hành động của người chơi và tám nhãn hoạt động nhóm. Nó chứa các chú thích hoạt động nhóm cũng như các chú thích hoạt động cá nhân.

Tham khảo tại: https://www.v7labs.com/open-datasets/arid-dataset

Bộ dữ liệu Nhận dạng hành động trong bóng tối (ARID) là bộ dữ liệu chuẩn để nhận dạng hành động trong điều kiện ánh sáng yếu. Với hơn 3.780 video clip có 11 danh mục hành động, nó trở thành bộ dữ liệu đầu tiên tập trung vào hành động của con người trong các video tối. Bộ dữ liệu ARID là một nguồn tài nguyên quan trọng dành cho các nhà nghiên cứu và các học viên đang nỗ lực cải thiện các thuật toán nhận dạng hành động trong điều kiện ánh sáng yếu.

Tham khảo tại: https://www.v7labs.com/open-datasets/dahlia 

Bộ dữ liệu DAHLIA tập trung vào nhận dạng hoạt động của con người đối với các dịch vụ nhà thông minh, chẳng hạn như hỗ trợ người dùng.

Video được quay trong điều kiện thực tế, với 3 cảm biến Kinect v2 được định vị giống như trong bối cảnh thực. Các hoạt động tầm xa được thực hiện một cách tự do (người tham gia chỉ nhận được một số hướng dẫn) và theo trình tự liên tục (không cắt xén), dẫn đến các video dài (trung bình 40 phút cho mỗi chủ đề).

Tham khảo tại: https://archive.ics.uci.edu/ml/datasets/human+activity+recognition+using+smartphones 

Tập dữ liệu Nhận dạng hoạt động của con người bằng điện thoại thông minh là tập dữ liệu có sẵn công khai chứa các chỉ số cảm biến từ gia tốc kế và gyroscope của điện thoại thông minh được ghi lại về sáu hoạt động: đi bộ, đi bộ lên cầu thang, đi bộ xuống cầu thang, ngồi, đứng và nằm.

Bộ dữ liệu bao gồm các phép đo gia tốc tuyến tính 3 trục và vận tốc góc 3 trục được ghi lại ở tốc độ không đổi 50Hz. Dữ liệu cảm biến được thu thập từ 30 tình nguyện viên đeo điện thoại thông minh Samsung Galaxy S II trên thắt lưng khi thực hiện các hoạt động. Mỗi tình nguyện viên được yêu cầu thực hiện từng hoạt động trong khoảng 2-3 phút, dẫn đến 10.299 trường hợp.

Tổng kết

HAR mang lại nhiều ứng dụng có ích cho cuộc sống con người. Theo dõi sức khỏe có thể được thực hiện thông qua các thiết bị đeo theo dõi hoạt động thể chất, nhịp tim và chất lượng giấc ngủ. Trong nhà thông minh, các giải pháp dựa trên HAR cho phép tiết kiệm năng lượng và tạo sự thoải mái cho cá nhân bằng cách phát hiện khi một người ra vào phòng và điều chỉnh ánh sáng hoặc nhiệt độ. Đi kèm với đó là nhiều bộ dữ liệu có sẵn được chia sẻ công khai, việc tìm kiếm dữ liệu phục vụ mục đích nghiên cứu và phát triển HAR là rất đơn giản.

Bài viết liên quan