UNETR
UNETR là một kiến trúc mạng nơ-ron kết hợp giữa Vision Transformer (ViT) và 3D convolutions. Dưới đây là các điểm quan trọng về kiến trúc này: 1. Vision Transformer (ViT):
- UNETR là một phiên bản tổng quát của ViT cho 3D convolutions.
- Nó thay thế 3D convolutions trong phần mã hóa bằng multi-head self-attention.
- Chuyển đổi dữ liệu đầu vào:
- Dữ liệu đầu vào 3D được chia thành các patch không giao nhau với kích thước 16x16x16.
- Sau đó, dữ liệu được chiếu vào không gian nhúng (768 chiều) bằng một lớp tuyến tính và kết hợp với positional embedding.
- Dữ liệu sau đó được xử lý bởi một encoder multi-head self-attention.