MC&TT Co., Ltd

Các công nghệ hỗ trợ tạo hình ảnh bằng AI

Chia sẻ:

Generative AI (AI tạo sinh) đang có những tiến bộ mạnh mẽ trong việc sáng tạo nội dung định dạng hình ảnh. Các tác phẩm do AI tạo ra ngày càng thu hút sự chú ý bởi tính chân thực và thẩm mỹ. Như Dall-E 2 hay Midjourney không còn xa lạ với cộng đồng AI, cũng như giới thiết kế, mỹ thuật. Bài viết sẽ giới thiệu một số công nghệ phổ biến để cơ chế tạo sinh hình ảnh của AI.

AI tạo sinh hình ảnh là gì?

Trình tạo hình ảnh bằng AI (AI image generators) sử dụng mạng thần kinh nhân tạo được huấn luyện trước để tạo ra các hình ảnh mới. Những mô hình này có thể tạo ra hình ảnh nguyên bản, chân thực dựa trên văn bản đầu vào viết bằng ngôn ngữ tự nhiên. Điểm đáng chú ý là trình tạo ảnh có khả năng kết hợp các phong cách, khái niệm và thuộc tính để tạo ra hình ảnh có tính nghệ thuật và phù hợp với ngữ cảnh. Điều này được thực hiện thông qua Generative AI (AI tạo sinh), một tập hợp con của trí tuệ nhân tạo tập trung vào việc tạo nội dung.

AI tạo sinh ảnh được đào tạo trên một lượng lớn dữ liệu hình ảnh và text. Thông qua quá trình đào tạo, model học hiểu các khía cạnh và đặc điểm khác nhau của hình ảnh trong bộ dữ liệu, tương ứng với nội dung mô tả. Kết quả, chúng có khả năng sáng tạo ra các hình ảnh mới với phong cách và nội dung theo yêu cầu nhờ những hiểu biết học được trong quá trình huấn luyện.

Có rất nhiều trình tạo hình ảnh bằng AI, mỗi trình tạo hình ảnh đều có những tính năng riêng. Đáng chú ý trong số này là kỹ thuật neural style transfer, cho phép áp đặt phong cách của hình ảnh này lên hình ảnh khác; Generative Adversarial Networks (GAN), sử dụng bộ đôi mạng thần kinh để huấn luyện nhằm tạo ra hình ảnh đầu ra trông thật nhất có thể như các hình ảnh trong tập dữ liệu huấn luyện; và các mô hình diffusion, tạo ra hình ảnh thông qua một quá trình mô phỏng sự khuếch tán của các hạt, dần dần chuyển đổi nhiễu thành hình ảnh có cấu trúc.

Các công nghệ hỗ trợ tạo hình ảnh bằng AI

1. Xử lý ngôn ngữ tự nhiên 

Trình tạo hình ảnh AI hiểu prompt văn bản bằng cách sử dụng quy trình mã hóa dữ liệu văn bản sang ngôn ngữ máy tính — định dạng số hoặc nhúng. Quy trình này bắt đầu bằng mô hình Xử lý ngôn ngữ tự nhiên (NLP), chẳng hạn như mô hình Contrastive Language-Image Pre-training (CLIP) được sử dụng trong các mô hình phổ biến như DALL-E.

Cơ chế này chuyển đổi văn bản đầu vào thành các vectơ để nắm bắt ý nghĩa và ngữ cảnh của văn bản. Mỗi giá trị thành phần trên vectơ đại diện cho một thuộc tính riêng biệt của văn bản đầu vào.

Ví dụ với prompt “a red apple on a tree” được nhập vào trình tạo hình ảnh. Mô hình NLP mã hóa văn bản này thành định dạng số để nắm bắt các yếu tố khác nhau – “đỏ”, “quả táo” và “cây” – và mối quan hệ giữa chúng. Biểu diễn số này hoạt động như một bản đồ điều hướng cho trình tạo hình ảnh AI.

Trong quá trình tạo hình ảnh, bản đồ này được khai thác để khám phá những trường hợp có khả năng cao nhất của hình ảnh cuối cùng. Nó đóng vai trò như một bộ quy tắc hướng dẫn AI về các thành phần trong hình ảnh và cách chúng tương tác. Trong trường hợp nhất định, trình tạo sẽ tạo một hình ảnh có một quả táo đỏ và một cái cây, định vị quả táo trên cây chứ không phải bên cạnh hoặc bên dưới nó.

Sự chuyển đổi thông minh từ văn bản sang biểu diễn số và cuối cùng là hình ảnh cho phép trình tạo hình ảnh AI diễn giải và thể hiện trực quan các prompt văn bản.

2. Generative Adversarial Networks (GAN)

GAN là một lớp thuật toán học máy khai thác sức mạnh của hai mạng thần kinh đối nghịch – generator và discriminator. Thuật ngữ “đối nghịch” xuất phát từ khái niệm: các mạng này làm 2 nhiệm vụ trái ngược với nhau.

Cơ chế hoạt động của GAN.

Kiến trúc GAN. GAN bao gồm hai thành phần cốt lõi, được gọi là sub-models:

  • Generator tạo ra các mẫu giả. Nó lấy một vectơ đầu vào ngẫu nhiên — một tập hợp các giá trị bất kỳ — và sử dụng thông tin này để tạo dữ liệu đầu vào giả.
  • Discriminator hoạt động như một bộ phân loại nhị phân. Nó lấy một mẫu làm đầu vào và xác định xem nó là thật hay do generator tạo ra.

Bản chất đối nghịch của GAN bắt nguồn từ lý thuyết trò chơi. Generator nhằm mục đích tạo ra các mẫu giả không thể phân biệt được với dữ liệu thực, trong khi Discriminator cố gắng xác định chính xác xem ảnh là thật hay giả. Quá trình này đảm bảo cả hai mạng đều liên tục học hỏi và cải thiện.

Quá trình được coi là thành công khi generator tạo ra một hình ảnh thuyết phục không chỉ đánh lừa discriminator mà còn khiến con người khó phân biệt.

3. Diffusion Models

Diffusion Models là một loại mô hình tạo sinh trong học máy, có khả năng tạo ra dữ liệu mới, chẳng hạn như hình ảnh hoặc âm thanh, bằng cách bắt chước dữ liệu mà chúng đã được đào tạo. Với cách tiếp cận này, mô hình dần dần thêm nhiễu vào dữ liệu và sau đó học cách điều chỉnh để tái tạo lại dữ liệu chuẩn ban đầu.

Diffusion Models chuyển đổi qua lại giữa dữ liệu và nhiễu

Quy trình cụ thể bao gồm:

  • Forward diffusion. Ở giai đoạn này, mô hình bắt đầu với một phần dữ liệu gốc, chẳng hạn như hình ảnh và dần dần thêm nhiễu ngẫu nhiên thông qua một loạt các bước. Điều này được thực hiện thông qua Markov chain, trong đó tại mỗi bước, dữ liệu được thay đổi dựa trên trạng thái trước đó của nó. Nhiễu thêm vào được gọi là nhiễu Gaussian, đây là một loại nhiễu ngẫu nhiên phổ biến.
  • Training. Ở đây, mô hình học cách ước tính sự khác biệt giữa dữ liệu gốc và phiên bản nhiễu ở mỗi bước. 
  • Reverse diffusion. Sau khi mô hình được đào tạo, nó lấy dữ liệu nhiễu và cố gắng loại bỏ nhiễu để quay lại dữ liệu gốc. Bằng cách này, mô hình có thể tạo ra dữ liệu mới giống với dữ liệu gốc.
  • Tạo dữ liệu mới. Cuối cùng, mô hình có thể sử dụng những gì đã học được trong quá trình reverse diffusion để tạo ra dữ liệu mới. Ngoài ra, còn có prompt bằng văn bản hướng dẫn mô hình tạo ra hình ảnh phù hợp.

4. Neural Style Transfer (NST)

Neural Style Transfer (NST) là một ứng dụng học sâu kết hợp nội dung của một ảnh với phong cách của một ảnh khác để tạo ra dữ liệu hoàn toàn mới.

Tổng quan về Neural Style Transfer

Ở cấp độ cao, NST sử dụng mạng được đào tạo trước để phân tích hình ảnh, cùng một số phương pháp khác để lấy phong cách từ một ảnh và áp dụng cho ảnh khác. Điều này giúp hình ảnh mới được tạo ra tập hợp được các đặc điểm mong muốn.

Quá trình NST bao gồm ba hình ảnh cốt lõi.

  • Hình ảnh nội dung – Đây là hình ảnh có nội dung muốn giữ lại.
  • Hình ảnh phong cách – Hình ảnh chứa phong cách muốn thể hiện.
  • Hình ảnh mới được tạo ra – Hình ảnh này được sáng tạo để kết hợp nội dung và phong cách định sẵn. 

Về cơ chế của NST: 

  • Content loss. Content loss là thước đo mức độ khác biệt về nội dung của hình ảnh được tạo so với nội dung của hình ảnh gốc. NST sử dụng nhiều lớp mạng thần kinh để nắm bắt các thành phần chính trong hình ảnh và đảm bảo các thành phần này xuất hiện trong hình ảnh mới.
  • Style loss. Style loss đo lường sự khác biệt về phong cách, ví dụ: các mẫu và họa tiết trong hình ảnh được tạo và hình ảnh gốc. NST cố gắng khớp các họa tiết và mẫu trên các lớp giữa hình ảnh gốc và hình ảnh được tạo.
  • Total loss. NST kết hợp content loss và style loss thành một thước đo duy nhất gọi là total loss. Ở đây, nếu mô hình tập trung quá nhiều vào nội dung phù hợp, thì có thể mất đi yếu tố phong cách và ngược lại. NST cho phép nhà phát triển cân nhắc mức độ quan tâm đến nội dung hay phong cách trong total loss. Sau đó, nó sử dụng thuật toán tối ưu hóa để thay đổi các pixel trong hình ảnh được tạo ra sao cho total loss là thấp nhất.

Sau khi tối ưu hóa, hình ảnh được tạo sẽ lấy nội dung và phong cách từ các hình ảnh khác nhau.

Tổng kết

GAN, NST và Diffusion model chỉ là một số công nghệ tạo ảnh AI gần đây thu hút sự chú ý. Nhiều kỹ thuật phức tạp khác liên tục được phát triển, khi các nhà nghiên cứu không ngừng đào sâu năng lực của AI trong việc tạo ra hình ảnh.

Bạn đang xem: Các công nghệ hỗ trợ tạo hình ảnh bằng AI
Bài trước Bài sau
VIẾT BÌNH LUẬN CỦA BẠN

Địa chỉ email của bạn sẽ được bảo mật. Các trường bắt buộc được đánh dấu *

Đăng nhập
Đăng ký
Hotline: 0904251826
x