Trang chủ Liên hệ

Các công nghệ hỗ trợ tạo hình ảnh bằng AI

CÔNG TY TNHH THIẾT BỊ ĐO LƯỜNG VÀ ĐIỀU KHIỂN 21/02/2024

Generative AI (AI tạo sinh) đang có những tiến bộ mạnh mẽ trong việc sáng tạo nội dung định dạng hình ảnh. Các tác phẩm do AI tạo ra ngày càng thu hút sự chú ý bởi tính chân thực và thẩm mỹ. Như Dall-E 2 hay Midjourney không còn xa lạ với cộng đồng AI, cũng như giới thiết kế, mỹ thuật. Bài viết sẽ giới thiệu một số công nghệ phổ biến để cơ chế tạo sinh hình ảnh của AI.

AI tạo sinh hình ảnh là gì?

Trình tạo hình ảnh bằng AI (AI image generators) sử dụng mạng thần kinh nhân tạo được huấn luyện trước để tạo ra các hình ảnh mới. Những mô hình này có thể tạo ra hình ảnh nguyên bản, chân thực dựa trên văn bản đầu vào viết bằng ngôn ngữ tự nhiên. Điểm đáng chú ý là trình tạo ảnh có khả năng kết hợp các phong cách, khái niệm và thuộc tính để tạo ra hình ảnh có tính nghệ thuật và phù hợp với ngữ cảnh. Điều này được thực hiện thông qua Generative AI (AI tạo sinh), một tập hợp con của trí tuệ nhân tạo tập trung vào việc tạo nội dung.

AI tạo sinh ảnh được đào tạo trên một lượng lớn dữ liệu hình ảnh và text. Thông qua quá trình đào tạo, model học hiểu các khía cạnh và đặc điểm khác nhau của hình ảnh trong bộ dữ liệu, tương ứng với nội dung mô tả. Kết quả, chúng có khả năng sáng tạo ra các hình ảnh mới với phong cách và nội dung theo yêu cầu nhờ những hiểu biết học được trong quá trình huấn luyện.

Có rất nhiều trình tạo hình ảnh bằng AI, mỗi trình tạo hình ảnh đều có những tính năng riêng. Đáng chú ý trong số này là kỹ thuật neural style transfer, cho phép áp đặt phong cách của hình ảnh này lên hình ảnh khác; Generative Adversarial Networks (GAN), sử dụng bộ đôi mạng thần kinh để huấn luyện nhằm tạo ra hình ảnh đầu ra trông thật nhất có thể như các hình ảnh trong tập dữ liệu huấn luyện; và các mô hình diffusion, tạo ra hình ảnh thông qua một quá trình mô phỏng sự khuếch tán của các hạt, dần dần chuyển đổi nhiễu thành hình ảnh có cấu trúc.

Các công nghệ hỗ trợ tạo hình ảnh bằng AI

1. Xử lý ngôn ngữ tự nhiên 

Trình tạo hình ảnh AI hiểu prompt văn bản bằng cách sử dụng quy trình mã hóa dữ liệu văn bản sang ngôn ngữ máy tính — định dạng số hoặc nhúng. Quy trình này bắt đầu bằng mô hình Xử lý ngôn ngữ tự nhiên (NLP), chẳng hạn như mô hình Contrastive Language-Image Pre-training (CLIP) được sử dụng trong các mô hình phổ biến như DALL-E.

Cơ chế này chuyển đổi văn bản đầu vào thành các vectơ để nắm bắt ý nghĩa và ngữ cảnh của văn bản. Mỗi giá trị thành phần trên vectơ đại diện cho một thuộc tính riêng biệt của văn bản đầu vào.

Ví dụ với prompt “a red apple on a tree” được nhập vào trình tạo hình ảnh. Mô hình NLP mã hóa văn bản này thành định dạng số để nắm bắt các yếu tố khác nhau – “đỏ”, “quả táo” và “cây” – và mối quan hệ giữa chúng. Biểu diễn số này hoạt động như một bản đồ điều hướng cho trình tạo hình ảnh AI.

Trong quá trình tạo hình ảnh, bản đồ này được khai thác để khám phá những trường hợp có khả năng cao nhất của hình ảnh cuối cùng. Nó đóng vai trò như một bộ quy tắc hướng dẫn AI về các thành phần trong hình ảnh và cách chúng tương tác. Trong trường hợp nhất định, trình tạo sẽ tạo một hình ảnh có một quả táo đỏ và một cái cây, định vị quả táo trên cây chứ không phải bên cạnh hoặc bên dưới nó.

Sự chuyển đổi thông minh từ văn bản sang biểu diễn số và cuối cùng là hình ảnh cho phép trình tạo hình ảnh AI diễn giải và thể hiện trực quan các prompt văn bản.

2. Generative Adversarial Networks (GAN)

GAN là một lớp thuật toán học máy khai thác sức mạnh của hai mạng thần kinh đối nghịch – generator và discriminator. Thuật ngữ “đối nghịch” xuất phát từ khái niệm: các mạng này làm 2 nhiệm vụ trái ngược với nhau.

Cơ chế hoạt động của GAN.

Kiến trúc GAN. GAN bao gồm hai thành phần cốt lõi, được gọi là sub-models:

Bản chất đối nghịch của GAN bắt nguồn từ lý thuyết trò chơi. Generator nhằm mục đích tạo ra các mẫu giả không thể phân biệt được với dữ liệu thực, trong khi Discriminator cố gắng xác định chính xác xem ảnh là thật hay giả. Quá trình này đảm bảo cả hai mạng đều liên tục học hỏi và cải thiện.

Quá trình được coi là thành công khi generator tạo ra một hình ảnh thuyết phục không chỉ đánh lừa discriminator mà còn khiến con người khó phân biệt.

3. Diffusion Models

Diffusion Models là một loại mô hình tạo sinh trong học máy, có khả năng tạo ra dữ liệu mới, chẳng hạn như hình ảnh hoặc âm thanh, bằng cách bắt chước dữ liệu mà chúng đã được đào tạo. Với cách tiếp cận này, mô hình dần dần thêm nhiễu vào dữ liệu và sau đó học cách điều chỉnh để tái tạo lại dữ liệu chuẩn ban đầu.

Diffusion Models chuyển đổi qua lại giữa dữ liệu và nhiễu

Quy trình cụ thể bao gồm:

4. Neural Style Transfer (NST)

Neural Style Transfer (NST) là một ứng dụng học sâu kết hợp nội dung của một ảnh với phong cách của một ảnh khác để tạo ra dữ liệu hoàn toàn mới.

Tổng quan về Neural Style Transfer

Ở cấp độ cao, NST sử dụng mạng được đào tạo trước để phân tích hình ảnh, cùng một số phương pháp khác để lấy phong cách từ một ảnh và áp dụng cho ảnh khác. Điều này giúp hình ảnh mới được tạo ra tập hợp được các đặc điểm mong muốn.

Quá trình NST bao gồm ba hình ảnh cốt lõi.

Về cơ chế của NST: 

Sau khi tối ưu hóa, hình ảnh được tạo sẽ lấy nội dung và phong cách từ các hình ảnh khác nhau.

Tổng kết

GAN, NST và Diffusion model chỉ là một số công nghệ tạo ảnh AI gần đây thu hút sự chú ý. Nhiều kỹ thuật phức tạp khác liên tục được phát triển, khi các nhà nghiên cứu không ngừng đào sâu năng lực của AI trong việc tạo ra hình ảnh.

Bài viết liên quan