Phân đoạn video là gì? Video segmentation cho người mới

Mô hình AI có thể tự động xác định và trích xuất các cảnh hoặc hành động cụ thể từ video. Điều này có thể tiết kiệm rất nhiều thời gian và công sức cho người dựng phim, cho phép họ tạo video mới từ cảnh quay hiện có một cách nhanh chóng và dễ dàng. Công nghệ cũng cho phép các hệ thống máy móc tự động xác định những mối đe dọa tiềm ẩn, phát hiện hành vi đáng ngờ, hoặc gần hơn là tự động tạo chú thích và phụ đề cho video.

Đằng sau những ứng dụng này là kỹ thuật phân đoạn video (video segmentation). Đây là một kỹ thuật mở rộng so với kỹ thuật phân đoạn hình ảnh mà chúng ta đã tìm hiểu. Vậy phân đoạn video là gì? Đâu là các phương pháp và mô hình hỗ trợ phân đoạn video? Bài viết dưới đây sẽ cùng bạn đi tìm câu trả lời cho những câu hỏi trên.

Phân đoạn video là gì?

Phân đoạn video (video segmentation) là một bước cơ bản trong việc phân tích và hiểu nội dung video, nó cho phép trích xuất thông tin và đặc trưng có ý nghĩa từ video đầu vào. Tác vụ này liên quan đến việc chia video thành các phân đoạn hoặc cảnh quay riêng lẻ, thường được xác định bằng các thay đổi về cảnh, góc máy quay hoặc các đặc điểm hình ảnh khác. Sau đó, các phân đoạn này có thể được phân tích và mô tả đặc điểm dựa trên nội dung, thời lượng và các thuộc tính khác, tạo cơ sở để phân tích và hiểu rõ hơn về video.

Ví dụ về phân đoạn video (từng khung hình)

Phân đoạn video có thể được thực hiện ở nhiều mức độ chi tiết khác nhau, từ việc phân đoạn các đối tượng hoặc sự kiện riêng lẻ trong một cảnh quay đến việc phân đoạn toàn bộ cảnh quay hoặc cảnh. Nó cũng có thể được thực hiện ở các giai đoạn khác nhau của quy trình xử lý video, từ dữ liệu video thô đến giai đoạn trích xuất đặc tính hoặc chú thích.

Các phương pháp và kỹ thuật phân đoạn video có thể được chia thành hai loại

Phân đoạn đối tượng video (Video Object Segmentation)
Phân đoạn ngữ nghĩa video (Video Semantic Segmentation)

Phân đoạn đối tượng và phân đoạn ngữ nghĩa là hai nhiệm vụ quan trọng trong thị giác máy tính nhằm mục đích hiểu nội dung của video. Các tác vụ này có các phương pháp và số liệu đánh giá khác nhau, cũng như được ứng dụng trong các tình huống khác nhau:

Phân đoạn đối tượng video tập trung vào việc theo dõi các đối tượng trong video và được ứng dụng trong xe giám sát và xe tự hành.
Phân đoạn ngữ nghĩa video tập trung vào việc hiểu toàn cảnh nội dung của video, có thể được tìm thấy trong các ứng dụng như thực tế tăng cường và tóm tắt video.

Các phương pháp và mô hình Phân đoạn Đối tượng Video (VOS)

Phân đoạn đối tượng video là nhiệm vụ phân đoạn và theo dõi các đối tượng cụ thể trong video. Điều này thường được thực hiện bằng cách khởi tạo đối tượng—xác định đối tượng trong khung hình đầu tiên của video—sau đó, theo dõi chuyển động của đối tượng trong suốt phần còn lại của video. Mục tiêu là phân đoạn đối tượng khỏi nền và theo dõi những thay đổi trong chuyển động của chúng. Tác vụ này rất hữu ích trong các ứng dụng như giám sát bằng video, người máy và xe tự hành.

Có nhiều phương pháp khác nhau để khởi tạo đối tượng, bao gồm:

Chú thích thủ công—chính xác nhất nhưng cũng tốn nhiều thời gian nhất
Chú thích tự động—kém chính xác nhất nhưng nhanh nhất
Chú thích bán tự động—cân bằng độ chính xác và tốc độ

Khi đối tượng đã được khởi chạy, nó phải được theo dõi trong suốt phần còn lại của video. Có nhiều phương pháp khác nhau để theo dõi đối tượng, bao gồm các thuật toán theo dõi đối tượng truyền thống, chẳng hạn như Kalman filter và particle filter hay gần đây nhất là các phương pháp dựa trên học sâu. Phương pháp dựa trên học sâu này thường sử dụng kết hợp Mạng thần kinh tích chập (CNN) và Mạng thần kinh hồi quy (RNN) để phân đoạn và theo dõi các đối tượng.

Việc đánh giá các phương pháp phân đoạn đối tượng video thường được thực hiện bằng cách sử dụng các số liệu như Intersection over Union (IoU) và Multiple Object Tracking Accuracy (MOTA). IoU đo lường sự trùng lặp giữa đối tượng được dự đoán và đối tượng thật, trong khi MOTA đo lường độ chính xác tổng thể của thuật toán theo dõi đối tượng.

VOS không giám sát

VOS không giám sát (Unsupervised VOS), như đúng tên gọi, nhằm mục đích phân đoạn các đối tượng trong video mà không sử dụng bất kỳ dữ liệu được gán nhãn nào. Nhiệm vụ đầy thách thức này yêu cầu mô hình tìm hiểu hình dáng và chuyển động của các đối tượng trong video và tách chúng ra khỏi nền.

Một cách tiếp cận phổ biến đối với VOS không giám sát là dựa trên luồng quang học, một kỹ thuật ước tính chuyển động của các pixel giữa các khung hình liên tiếp trong video. Luồng quang học có thể được sử dụng để theo dõi chuyển động của các đối tượng trong video và phân đoạn chúng khỏi nền.

VOS bán giám sát

Các phương pháp VOS bán giám sát (Semi-Supervised VOS) sử dụng một lượng nhỏ dữ liệu được gắn nhãn để hướng dẫn quy trình phân đoạn và các phương pháp không giám sát để tinh chỉnh kết quả phân đoạn. Cách tiếp cận này tận dụng các điểm mạnh của cả phương pháp có giám sát và không giám sát để đạt được hiệu quả và độ chính xác cao hơn.

Một trong những ưu điểm chính của phân đoạn đối tượng video bán giám sát là nó yêu cầu ít dữ liệu được gán nhãn hơn so với các phương pháp có giám sát. Điều này đặc biệt hữu ích trong trường hợp việc thu thập dữ liệu gán nhãn là khó khăn hoặc tốn kém. Ngoài ra, các phương pháp không giám sát được sử dụng trong phân đoạn đối tượng video bán giám sát có thể giúp cải thiện sức mạnh và tính khái quát của kết quả phân đoạn, vì chúng có thể tính đến ngữ cảnh và thông tin bổ sung không tồn tại trong dữ liệu được gán nhãn.

VOS tương tác

Interactive VOS là một kỹ thuật được sử dụng để phân đoạn và theo dõi các đối tượng trong video theo thời gian thực. Khía cạnh tương tác của kỹ thuật này đề cập đến khả năng người dùng cung cấp đầu vào cho thuật toán. Ví dụ: chỉ định vị trí ban đầu của một đối tượng trong khung hình đầu tiên của video hoặc vẽ một hộp giới hạn xung quanh đối tượng. Sau đó, đầu vào này có thể hướng dẫn thuật toán phân đoạn và theo dõi đối tượng trong suốt phần còn lại của video.

Một trong những lợi ích chính của Interactive VOS là khả năng cải thiện độ chính xác và độ tin cậy của việc phân đoạn đối tượng và theo dõi, đặc biệt là trong trường hợp các đối tượng bị che khuất một phần hoặc có hình thức tương tự với các đối tượng khác trong video. Kỹ thuật này cũng có thể đào tạo các mô hình phát hiện đối tượng chính xác hơn bằng cách cung cấp bổ sung dữ liệu có gán nhãn.

VOS được hướng dẫn bằng ngôn ngữ

Language-guided VOS là một kỹ thuật sử dụng đầu vào ngôn ngữ tự nhiên để hướng dẫn phân đoạn và theo dõi các đối tượng trong video. Điều này thường được thực hiện bằng cách sử dụng kết hợp các thuật toán học máy, chẳng hạn như Mạng thần kinh tích chập (CNN) và Mạng thần kinh hồi quy (RNN) cùng các kỹ thuật Xử lý ngôn ngữ tự nhiên (NLP) để hiểu đầu vào của người dùng.

Ưu điểm chính của việc sử dụng đầu vào ngôn ngữ tự nhiên là nó cho phép tương tác linh hoạt và trực quan hơn với thuật toán. Ví dụ: thay vì chỉ định thủ công vị trí ban đầu của một đối tượng trong khung hình đầu tiên của video, người dùng có thể chỉ cần cung cấp mô tả bằng lời nói về đối tượng, chẳng hạn như “chiếc xe màu đỏ” hoặc “người mặc áo sơ mi xanh”. Điều này có thể đặc biệt hữu ích trong trường hợp các đối tượng khó xác định vị trí hoặc có hình thức tương tự với các đối tượng khác trong video.

Ví dụ về VOS được hướng dẫn bằng ngôn ngữ

Để đạt được điều này, trước tiên, thuật toán sử dụng các kỹ thuật NLP để xử lý thông tin đầu vào của người dùng và trích xuất thông tin liên quan về đối tượng sẽ được phân đoạn và theo dõi. Thông tin này sau đó được sử dụng để hướng dẫn quá trình phân đoạn và theo dõi, chẳng hạn như bằng cách sử dụng màu sắc hoặc hình dạng của đối tượng làm gợi ý.

Các phương pháp và mô hình Phân đoạn ngữ nghĩa video (VSS)

Phân đoạn ngữ nghĩa video là nhiệm vụ phân đoạn và hiểu nội dung ngữ nghĩa của video. Điều này không chỉ bao gồm việc phân đoạn các đối tượng mà còn hiểu được ý nghĩa và ngữ cảnh của chúng. Ví dụ: mô hình phân đoạn ngữ nghĩa video có thể xác định rằng một người đang đi bộ trên vỉa hè, một chiếc ô tô đang chạy trên đường và một tòa nhà là một tòa nhà chọc trời. Mục đích là để hiểu cảnh và nội dung của nó thay vì chỉ theo dõi các đối tượng cụ thể. Tác vụ này hữu ích trong các ứng dụng thực tế tăng cường và tóm tắt video.

Quá trình phân đoạn ngữ nghĩa video thường bắt đầu bằng việc trích xuất các đặc trưng từ các khung hình video bằng cách sử dụng mạng thần kinh tích chập (CNN). CNN có thể học các biểu diễn phân cấp của dữ liệu hình ảnh, cho phép chúng hiểu nội dung của hình ảnh ở nhiều mức độ trừu tượng.

Các đặc trưng đã trích xuất được sử dụng để phân loại từng pixel trong video. Điều này thường được thực hiện bằng cách sử dụng mạng tích chập hoàn toàn (FCN), một loại CNN được thiết kế cho các nhiệm vụ dense prediction. FCN có thể lấy một hình ảnh đầu vào và tạo ra một đầu ra dày đặc, trong đó mỗi pixel trong đầu ra tương ứng với một nhãn lớp (ví dụ: “đối tượng” hoặc “nền”).

Các phương pháp phân đoạn ngữ nghĩa video được đánh giá bằng cách sử dụng các số liệu như mean Intersection over Union (mIoU) và Pixel Accuracies (PA). mIoU đo độ trùng lặp trung bình giữa đối tượng được dự đoán và đối tượng thật, trong khi PA đo độ chính xác tổng thể của thuật toán phân đoạn đối tượng.

Phân đoạn ngữ nghĩa video (Instance-agnostic Video Semantic Segmentation)

Instance-agnostic VSS là một phương pháp để xác định và phân đoạn các đối tượng trong một chuỗi video mà không xem xét các phiên bản riêng lẻ của các đối tượng. Cách tiếp cận này trái ngược với phân đoạn ngữ nghĩa nhận biết phiên bản, theo dõi và phân đoạn các phiên bản riêng lẻ của các đối tượng trong video, do đó ít yêu cầu việc tính toán hơn.

Phân đoạn đối tượng video (Video instance segmentation)

Video instance segmentation xác định và phân đoạn các phiên bản riêng lẻ của các đối tượng trong một chuỗi video. Cách tiếp cận này trái ngược với phân đoạn ngữ nghĩa không liên quan đến phiên bản, chỉ xác định và phân đoạn các đối tượng trong video mà không xem xét các phiên bản riêng lẻ.

Dưới đây là một ví dụ trực quan mô tả sự khác biệt giữa hai loại thuật toán phân đoạn video này.

Phân đoạn toàn cảnh video

Phân đoạn toàn cảnh video (Video panoptic segmentation – VPS) xác định và phân đoạn cả đối tượng và các bộ phận của chúng trong một chuỗi video chỉ bằng một bước duy nhất. Cách tiếp cận này kết hợp các điểm mạnh của cả phân đoạn ngữ nghĩa không liên quan đến phiên bản và phân đoạn phiên bản video.

Ưu điểm chính của VPS là nó có thể phân biệt giữa các đối tượng, các bộ phận của đối tượng và nền trong video, mang lại sự hiểu biết chi tiết hơn về cảnh. Nó cũng cho phép phân biệt và phân đoạn nhiều phiên bản của cùng một đối tượng trong một video, ngay cả khi chúng trùng nhau, điều này đòi hỏi nhu cầu tính toán cao. Phân đoạn toàn cảnh video đặc biệt hữu ích cho các ứng dụng như giám sát bằng video, xe tự hành và máy bay không người lái.

Những thách thức và hạn chế của phân đoạn video

Cùng với không ít lợi ích và ứng dụng, nhưng phân đoạn video cũng có một số thách thức và hạn chế cần được xem xét. Một số thách thức và hạn chế chính của phân đoạn video bao gồm:

Sự thay đổi về nội dung và chất lượng video. Điều này có thể bao gồm các biến thể về ánh sáng, độ phân giải, tốc độ khung hình và các yếu tố khác có thể ảnh hưởng đến hình thức và đặc điểm của video. Nhiều phương pháp khác nhau đã được phát triển trong nhiều năm để xử lý các biến thể lớn về hình thức đối tượng, bao gồm các tính năng đa tỷ lệ, phương pháp dựa trên học sâu và kỹ thuật thích ứng miền. Các phương pháp để giải quyết việc thay đổi ánh sáng và điểm nhìn bao gồm sử dụng biểu đồ màu hoặc tính năng kết cấu.
Thiếu sự nhất quán về thời gian. Video là một chuỗi các khung và nội dung của cảnh có thể thay đổi đáng kể từ khung này sang khung khác. Điều này gây khó khăn cho việc duy trì tính nhất quán trong phân đoạn giữa các khung. Các phương pháp xử lý tính nhất quán theo thời gian bao gồm sử dụng các mạng thần kinh hồi quy (RNN), luồng quang học hoặc các tính năng chuyển động.
Loại trừ. Loại trừ xảy ra khi một đối tượng che khuất đối tượng khác, khiến việc theo dõi trở nên khó khăn hoặc không thể. Có nhiều phương pháp khác nhau để xử lý, bao gồm sử dụng nhiều camera hoặc cảm biến, cảm biến độ sâu và phát hiện lại đối tượng.
Sự phức tạp của cảnh thị giác. Phân đoạn video có thể là một thách thức do sự phức tạp của các cảnh trực quan được mô tả trong video. Điều này có thể bao gồm sự hiện diện của nhiều đối tượng và sự kiện, cũng như hiện tượng che khuất, phản chiếu và các yếu tố gây xao lãng thị giác khác có thể gây khó khăn cho việc xác định và phân đoạn nội dung của video.
Thiếu dữ liệu đào tạo. Các phương pháp tiếp cận có giám sát để phân đoạn video yêu cầu phải có sẵn dữ liệu đào tạo được gắn nhãn. Đây là một thách thức đối với nhiều bộ dữ liệu video. Điều này có thể hạn chế hiệu quả và khả năng khái quát hóa của các phương pháp phân đoạn video.
Độ phức tạp trong tính toán. Phân đoạn video có thể tốn nhiều công sức tính toán, đặc biệt đối với bộ dữ liệu video lớn hoặc độ phân giải cao. Điều này đặt ra những thách thức trong việc thực hiện phân đoạn video trực tuyến hoặc thời gian thực hoặc mở rộng quy trình phân đoạn thành các bộ sưu tập video mở rộng.
Đánh giá và điểm chuẩn: Việc đánh giá hiệu suất của các phương pháp phân đoạn video có thể khó khăn do thiếu điểm chuẩn và chỉ số đánh giá được tiêu chuẩn hóa. Điều này có thể khiến việc so sánh và đánh giá các phương pháp tiếp cận khác nhau hoặc xác định phương pháp tốt nhất cho một tập dữ liệu video nhất định trở nên khó khăn.

Kết luận

Phân đoạn đối tượng video là nhiệm vụ phân đoạn và theo dõi các đối tượng cụ thể trong video. Điều này thường được thực hiện bằng cách khởi tạo đối tượng - xác định đối tượng trong khung hình đầu tiên của video - sau đó, theo dõi chuyển động của đối tượng trong suốt phần còn lại của video. Hi vọng qua bài viết này, các bạn có thể hiểu thêm về kĩ thuật phân đoạn video!