Một cách mới để tạo ra các hình dạng 3D thực tế bằng cách sử dụng AI

ỨNG DỤNG AI

Clark

12/4/20249 min read

Các nhà nghiên cứu đề xuất một giải pháp đơn giản cho một kỹ thuật hiện có có thể giúp các nghệ sĩ, nhà thiết kế và kỹ sư tạo ra các mô hình 3D tốt hơn.

Việc tạo ra các mô hình 3D chân thực cho các ứng dụng như thực tế ảo, làm phim và thiết kế kỹ thuật có thể là một quá trình cồng kềnh đòi hỏi nhiều lần thử và sai thủ công.

Trong khi các mô hình trí tuệ nhân tạo tạo hình ảnh có thể hợp lý hóa các quy trình nghệ thuật bằng cách cho phép người sáng tạo tạo ra hình ảnh 2D giống như thật từ lời nhắc văn bản, thì các mô hình này không được thiết kế để tạo ra các hình dạng 3D. Để thu hẹp khoảng cách, một kỹ thuật mới được phát triển có tên là Score Distillation tận dụng các mô hình tạo hình ảnh 2D để tạo ra các hình dạng 3D, nhưng đầu ra của nó thường bị mờ hoặc giống phim hoạt hình.

Các nhà nghiên cứu của MIT đã khám phá mối quan hệ và sự khác biệt giữa các thuật toán được sử dụng để tạo ra hình ảnh 2D và hình dạng 3D, xác định nguyên nhân gốc rễ của các mô hình 3D chất lượng thấp hơn. Từ đó, họ đã tạo ra một bản sửa lỗi đơn giản cho Score Distillation, cho phép tạo ra các hình dạng 3D sắc nét, chất lượng cao, có chất lượng gần với hình ảnh 2D được tạo ra từ mô hình tốt nhất.

Một số phương pháp khác cố gắng khắc phục vấn đề này bằng cách đào tạo lại hoặc tinh chỉnh mô hình AI tạo sinh, có thể tốn kém và mất thời gian.

Ngược lại, kỹ thuật của các nhà nghiên cứu MIT đạt được chất lượng hình dạng 3D ngang bằng hoặc tốt hơn các phương pháp này mà không cần đào tạo bổ sung hoặc xử lý hậu kỳ phức tạp.

Hơn nữa, bằng cách xác định nguyên nhân của vấn đề, các nhà nghiên cứu đã cải thiện hiểu biết toán học về phương pháp chưng cất điểm và các kỹ thuật liên quan, cho phép các công trình trong tương lai cải thiện hiệu suất hơn nữa.

"Bây giờ chúng ta biết mình nên hướng đến đâu, điều này cho phép chúng ta tìm ra các giải pháp hiệu quả hơn, nhanh hơn và chất lượng cao hơn", Artem Lukoianov, một sinh viên sau đại học về kỹ thuật điện và khoa học máy tính (EECS) và là tác giả chính của một bài báo về kỹ thuật này, cho biết. "Về lâu dài, công trình của chúng tôi có thể giúp tạo điều kiện thuận lợi cho quá trình trở thành người đồng hành cùng các nhà thiết kế, giúp tạo ra các hình dạng 3D chân thực hơn".

Các đồng tác giả của Lukoianov là Haitz Sáez de Ocáriz Borde, một sinh viên sau đại học tại Đại học Oxford; Kristjan Greenewald, một nhà khoa học nghiên cứu tại Phòng thí nghiệm AI Watson của MIT-IBM; Vitor Campagnolo Guizilini, một nhà khoa học tại Viện nghiên cứu Toyota; Timur Bagautdinov, một nhà khoa học nghiên cứu tại Meta; và các tác giả cao cấp Vincent Sitzmann, một phó giáo sư EECS tại MIT, người đứng đầu Nhóm biểu diễn cảnh tại Phòng thí nghiệm khoa học máy tính và trí tuệ nhân tạo (CSAIL) và Justin Solomon, phó giáo sư EECS và là trưởng nhóm Xử lý dữ liệu hình học của CSAIL. Nghiên cứu sẽ được trình bày tại Hội nghị về Hệ thống xử lý thông tin thần kinh.

Từ hình ảnh 2D đến hình dạng 3D

Các mô hình khuếch tán, chẳng hạn như DALL-E, là một loại mô hình AI tạo sinh có thể tạo ra hình ảnh giống như thật từ nhiễu ngẫu nhiên. Để đào tạo các mô hình này, các nhà nghiên cứu thêm nhiễu vào hình ảnh rồi dạy mô hình đảo ngược quy trình và loại bỏ nhiễu. Các mô hình sử dụng quy trình "khử nhiễu" đã học này để tạo ra hình ảnh dựa trên lời nhắc văn bản của người dùng.

Nhưng các mô hình khuếch tán hoạt động kém hiệu quả trong việc tạo trực tiếp các hình dạng 3D thực tế vì không có đủ dữ liệu 3D để đào tạo chúng. Để giải quyết vấn đề này, các nhà nghiên cứu đã phát triển một kỹ thuật có tên là Lấy mẫu chưng cất điểm (SDS) vào năm 2022, sử dụng mô hình khuếch tán được đào tạo trước để kết hợp các hình ảnh 2D thành biểu diễn 3D.

Kỹ thuật này bao gồm bắt đầu bằng một biểu diễn 3D ngẫu nhiên, kết xuất chế độ xem 2D của một vật thể mong muốn từ góc máy ảnh ngẫu nhiên, thêm nhiễu vào hình ảnh đó, khử nhiễu bằng mô hình khuếch tán, sau đó tối ưu hóa biểu diễn 3D ngẫu nhiên để nó khớp với hình ảnh đã khử nhiễu. Các bước này được lặp lại cho đến khi tạo ra được vật thể 3D mong muốn.

Tuy nhiên, các hình dạng 3D được tạo theo cách này có xu hướng trông mờ hoặc quá bão hòa. Lukoianov cho biết: "Đây đã là một nút thắt trong một thời gian. Chúng tôi biết mô hình cơ bản có khả năng hoạt động tốt hơn, nhưng mọi người không biết tại sao điều này lại xảy ra với các hình dạng 3D".

Các nhà nghiên cứu MIT đã khám phá các bước của SDS và xác định sự không khớp giữa công thức tạo thành một phần quan trọng của quy trình và công thức tương ứng trong các mô hình khuếch tán 2D. Công thức này cho mô hình biết cách cập nhật biểu diễn ngẫu nhiên bằng cách thêm và loại bỏ nhiễu, từng bước một, để làm cho nó trông giống với hình ảnh mong muốn hơn.

Vì một phần của công thức này liên quan đến một phương trình quá phức tạp để có thể giải quyết hiệu quả, SDS thay thế nó bằng nhiễu được lấy mẫu ngẫu nhiên ở mỗi bước. Các nhà nghiên cứu MIT phát hiện ra rằng nhiễu này dẫn đến các hình dạng 3D mờ hoặc giống phim hoạt hình.

Một câu trả lời gần đúng. Thay vì cố gắng giải chính xác công thức phức tạp này, các nhà nghiên cứu đã thử nghiệm các kỹ thuật xấp xỉ cho đến khi họ xác định được phương pháp tốt nhất. Thay vì lấy mẫu ngẫu nhiên thuật ngữ nhiễu, kỹ thuật xấp xỉ của họ suy ra thuật ngữ còn thiếu từ kết xuất hình dạng 3D hiện tại.

"Bằng cách thực hiện điều này, như phân tích trong bài báo dự đoán, nó tạo ra các hình dạng 3D trông sắc nét và chân thực", ông nói.

Ngoài ra, các nhà nghiên cứu đã tăng độ phân giải của kết xuất hình ảnh và điều chỉnh một số tham số mô hình để tăng cường thêm chất lượng hình dạng 3D.

Cuối cùng, họ đã có thể sử dụng một mô hình khuếch tán hình ảnh được đào tạo trước, có sẵn để tạo ra các hình dạng 3D mượt mà, chân thực mà không cần phải đào tạo lại tốn kém. Các vật thể 3D cũng sắc nét như các vật thể được tạo ra bằng các phương pháp khác dựa trên các giải pháp tùy ý.

"Cố gắng thử nghiệm một cách mù quáng với các thông số khác nhau, đôi khi nó hiệu quả và đôi khi thì không, nhưng bạn không biết tại sao. Chúng tôi biết đây là phương trình mà chúng tôi cần giải quyết. Bây giờ, điều này cho phép chúng tôi nghĩ ra những cách hiệu quả hơn để giải quyết nó", ông nói.

Vì phương pháp của họ dựa trên mô hình khuếch tán được đào tạo trước nên nó thừa hưởng những sai lệch và khuyết điểm của mô hình đó, khiến nó dễ bị ảo giác và các lỗi khác. Việc cải thiện mô hình khuếch tán cơ bản sẽ nâng cao quy trình của họ.

Ngoài việc nghiên cứu công thức để xem cách họ có thể giải quyết hiệu quả hơn, các nhà nghiên cứu còn quan tâm đến việc khám phá cách những hiểu biết sâu sắc này có thể cải thiện các kỹ thuật chỉnh sửa hình ảnh.

Công trình này được tài trợ một phần bởi Viện nghiên cứu Toyota, Quỹ khoa học quốc gia Hoa Kỳ, Cơ quan khoa học và công nghệ quốc phòng Singapore, Hoạt động dự án nghiên cứu nâng cao tình báo Hoa Kỳ, Trung tâm khoa học Amazon, IBM, Văn phòng nghiên cứu quân đội Hoa Kỳ, chương trình Tương lai dữ liệu của CSAIL, Tập đoàn Wistron và Phòng thí nghiệm AI Watson của MIT-IBM.

Mọi câu hỏi thắc mắc về công nghệ mới này vui lònggửi thư đến hòm thư contract@aitoolsvn.com

Đọc thêm bài viết khác về ứng dụng của AI tại: "Tạo CV Chuyên Nghiệp Chỉ Trong Vài Phút Nhờ Công Nghệ AI"