Công nghệ giải trình tự tế bào đơn (single-cell sequencing) của 10X Genomics

Single cell là gì

Làm thế nào để biết có 1 quả nho nằm trong ly sinh tố làm từ hỗn hợp gồm 20 quả táo, 5 quả dâu và 1 quả nho? Hương vị của ly sinh tố hỗn hợp thường sẽ có xu hướng gần giống với loại quả chiếm tỷ lệ lớn nhất (táo), điều này sẽ làm chúng ta gần như không thể nhận ra hương vị của 1 quả nho trong đó. Trong nghiên cứu sinh học cũng xảy ra tình trạng tương tự như ly sinh tố kể trên, trong khối u ung thư đôi lúc sẽ hiện diện một số tế bào ung thư hiếm có mức độ biểu hiện gene (RNA) hoàn toàn khác so với mức độ biểu hiện gene của toàn bộ khối u. Nhóm tế bào ung thư hiếm này cũng giống như quả nho ở ví dụ trên, gần như không thể phát hiện hay nghiên cứu bằng công nghệ giải trình tự gene thông thường (công nghệ giải trình tự và phân tích dữ liệu của DNA/RNA trên rất nhiều tế bào, còn được gọi là bulk sequencing). Vì vậy, cần có 1 công nghệ cho phép phát hiện cũng như phân tích những dòng tế bào hiếm tồn tại trong mẫu.

Công nghệ giải trình tự RNA tế bào đơn (scRNA-seq) chính là một công nghệ như vậy (Hình 1), công nghệ scRNA-seq cho phép phân tích biểu hiện từng gene của từng tế bào đơn hiện diện trong mẫu, nhờ đó có thể phát hiện cũng như thực hiện nghiên cứu sâu hơn về các dòng tế bào hiếm trong mẫu. Đó là một trong những ứng dụng của công nghệ scRNA-seq, các ứng dụng khác của scRNA-seq có thể tham khảo thêm TẠI ĐÂY.

Trong bài viết này, GeneSmart sẽ giới thiệu về cách mà công nghệ Next GEM (10X Genomics) phân tích biểu hiện gene của tế bào đơn bằng giải trình tự đầu 3′ của mRNA (single-cell 3′ gene expression). Ngoài ra bài viết cũng sẽ giúp hiểu rõ hơn về ý nghĩa các thuật ngữ trong công nghệ của 10X Genomics.

Công nghệ Next GEM của 10X Genomics là gì?

Nguyên lý hoạt động: Trong công nghệ Next GEM, RNA/DNA của từng tế bào trong mẫu sẽ được đánh dấu bằng một trình tự nhận diện, sau đó mẫu chứa các tế bào đã đánh dấu sẽ được chuẩn bị thư viện và giải trình tự với quy trình không khác gì với quy trình giải trình tự thông thường. Điểm khác biệt duy nhất của Next GEM chính là mỗi đoạn đọc đều mang trình tự nhận diện (do đã đánh dấu từ trước), nhờ đó sau khi giải trình tự thì người ta có thể phân nhóm dữ liệu dựa trên trình tự nhận diện. Một quy trình giải trình tự tế bào đơn sử dụng công nghệ Next GEM có thể tóm tắt thông qua 4 bước: Chuẩn bị mẫu, tạo thư viện tế bào đơn, giải trình tự và phân tích dữ liệu (Hình 2).

Vậy làm thế nào để thực hiện được việc đánh dấu từng tế bào trong mẫu bằng trình tự nhận diện? Để làm được việc này, công nghệ Next GEM sử dụng kết hợp 2 yếu tố quan trọng:

1) Hệ thống Droplet Microfluidics giúp đưa mỗi tế bào đơn vào 1 vi giọt phản ứng, mỗi vi giọt phản ứng giống như 1 ống nghiệm riêng vì vậy sẽ không xảy ra phản ứng chéo

2) Gel Bead chứa các trình tự nhận diện để đánh dấu lên tế bào đơn, các gel bead sẽ được đưa vào trong vi giọt cùng với tế bào đơn nhờ hệ thống Droplet Microfluidics

Hệ thống Droplet Microfluidics của 10X Genomics (Chromium)

Chromium Controller và Chromium Connect là những thiết bị dựa trên một nền tảng sử dụng công nghệ droplet microfluidic gọi là Chromium (Hình 3). Trong đó, máy Chromium Controller chỉ giúp đưa mỗi tế bào đơn vào 01 vi giọt phản ứng, còn hệ thống Chromium Connect được bổ sung tính năng chuẩn bị thư viện tự động giúp giảm 80% thời gian thao tác tay cũng như giảm thiểu các sai số do thao tác hút nhả pipette gây ra.

Nguyên lý của công nghệ droplet microfluidics của nền tảng Chromium rất đơn giản, nền tảng Chromium sử dụng các kênh có kích thước rất nhỏ nhằm trộn 2 pha chất lỏng là nước và dầu với nhau tạo thành các vi giọt dạng nhũ tương nước-trong-dầu. Tế bào và gel bead sẽ được nạp vào pha nước, vì vậy hỗn hợp vi giọt nhũ tương tạo ra sẽ có một số vi giọt chỉ chứa gel bead, một số vi giọt chỉ chứa tế bào, một số vi giọt chứa đồng thời cả gel bead lẫn tế bào và một lượng lớn vi giọt không chứa bất kỳ gel bead hoặc tế bào nào (Hình 4). Các vi giọt có chứa gel bead (bất kể có chứa hay không chứa tế bào) đều được gọi chung là GEM (gel bead-in-emulsion), số lượng GEM tạo ra ở mỗi mẫu trong 1 lần chạy là vô cùng lớn, về lý thuyết có thể đạt bằng đúng lượng gel bead đưa vào trong hệ thống. Lượng gel bead và lượng tế bào nạp vào càng nhiều thì tỷ lệ vi giọt chứa đồng thời cả gel bead lẫn tế bào càng lớn, hay nói cách khác là tỷ lệ GEM có chứa tế bào càng lớn. Tuy nhiên, để tránh tình trạng trong GEM chứa nhiều tế bào (doublet) thì nên duy trì lượng tế bào nạp vào ở mức thấp nhất có thể và tăng lượng gel bead lên mức tối đa.

Vậy quá trình tạo GEM có chứa tế bào đơn bằng nền tảng Chromium đạt hiệu quả đến mức nào? Để đánh giá hiệu quả của nền tảng Chromium, chúng ta có thể dựa trên 7 thông số cơ bản:

1) Thông lượng (Throughput): Số mẫu có thể thực hiện trong 1 lần chạy

2) Lượng tế bào đầu vào (Cell input): Lượng tế bào tối thiểu và tối đa của từng mẫu trong 1 lần chạy

3) Kích thước tế bào (Cell size): Kích thước tế bào tối thiểu và tối đa có thể nạp vào hệ thống

4) Hiệu quả bắt giữ (Capture efficiency): Tỷ lệ tế bào có được dữ liệu giải trình tự. Ví dụ: Nạp vào 10,000 tế bào và thu được dữ liệu giải trình tự của 1,000 tế bào thì “hiệu quả bắt giữ” là 10%.

5) Tỷ lệ doublet (Doublet rate): Doublet (hay multiplet) là thuật ngữ dùng để chỉ các GEM chứa từ 2 tế bào trở lên, tỷ lệ doublet càng thấp thì dữ liệu thu được càng đáng tin cậy hơn.

6) Độ đa dạng của gel bead (Gel bead diversity): Như đã thảo luận ở phía trên, cách tốt nhất để làm tăng “tỷ lệ GEM chứa tế bào” đó là tăng số lượng gel bead nạp vào. Độ đa dạng của gel bead cũng chính là đại diện cho số gel bead tối đa có thể nạp vào cho mỗi mẫu trong 1 lần chạy. Với công nghệ 10X Genomics, lượng gel bead nạp vào mỗi lần tạo GEM tương đương 3.6M hạt, lớn hơn rất nhiều lượng tế bào nạp vào để đảm bảo hạn chế tối đa tình trạng Doublet.

7) Thời gian xử lý (Processing time): Thời gian cần thiết để hoàn thành 1 lần chạy

Thông số kỹ thuật của nền tảng Chromium:

STT Thông số kỹ thuật 1 Thông lượng (Throughput) 1 ~ 8 mẫu 2 Lượng tế bào đầu vào (Cell input) 100 ~ 17,000 tế bào 3 Kích thước tế bào (Cell size) Lên đến 50 μm 4 Hiệu quả bắt giữ (Capture efficiency) Lên đến 65 % 5 Tỷ lệ doublet (Doublet rate) 0.9 % (mỗi 1,000 tế bào) 6 Độ đa dạng của gel bead (Gel bead diversity) ~ 3.6 × 106 7 Thời gian xử lý (Processing time) ~ 18 phút

Cấu tạo Gel Bead của 10X Genomics

Gel Bead đóng vai trò thiết yếu trong việc đánh dấu RNA/DNA cho từng tế bào trong mẫu bằng cách gắn trình tự nhận diện. Các kỹ thuật phân tích khác nhau sẽ sử dụng loại gel bead khác nhau, phổ biến nhất là “Single Cell 3′ v3.1 Gel Bead” (Hình 5), đây là loại gel bead chuyên dụng để phân tích biểu hiện gene của tế bào đơn bằng giải trình tự đầu 3′ của mRNA (single-cell 3′ gene expression).

Trên bề mặt của gel bead được gắn hàng triệu trình tự oligonucleotide gọi là primer. Ở “Single Cell 3′ v3.1 Gel Bead”, có 3 loại primer khác nhau cùng hiện diện. Loại thứ nhất chứa đuôi poly(dT)VN được sử dụng trong phân tích biểu hiện gene của tế bào đơn bằng giải trình tự đầu 3′ của mRNA (single-cell 3′ gene expression). Trong khi đó, 2 loại còn lại chứa đuôi Capture Sequence được sử dụng cho các ứng dụng nghiên cứu “protein bề mặt” và “tìm kiếm CRISPR” ở mức tế bào đơn thông qua 1 công nghệ hỗ trợ khác gọi là Feature Barcode (xem thêm về công nghệ Feature Barcode TẠI ĐÂY). Bài viết này sẽ chỉ tập trung về giải thích loại primer chứa đuôi poly(dT)VN.

Trong Single-cell 3′ gene expression, primer được sử dụng chứa 4 vùng trình tự:

1) TrueSeq Read 1: Trình tự dài 22 nucleotide, là một phần của trình tự TrueSeq Read 1 của Illumina, đóng vai trò là vị trí mồi PCR thứ 1 bám vào (1st PCR handle) trong bước khuếch đại cDNA sau khi gắn barcode và bước gắn index trong quá trình chuẩn bị thư viện single cell 3′ gene expression.

2) 10X Barcode: Trình tự dài 16 nucleotide, có khoảng 3.6 triệu trình tự 10X Barcode khác nhau, mỗi gel bead sở hữu 1 trình tự 10X Barcode riêng và tất cả các primer phủ trên hạt gel đó sẽ đều mang trình tự này.

3) UMI: Trình tự dài 12 nucleotide, là trình tự độc nhất được dùng để “nhớ mặt đặt tên” từng phân tử (Unique Molecular Identifier). Mỗi primer trên gel bead sẽ có UMI riêng, vì vậy trong trường hợp gene phiên mã được nhiều bản sao thì mỗi bản sao sẽ mang trình tự UMI không giống nhau. Nhờ có UMI mà các bước PCR khuếch đại phía sau sẽ không ảnh hưởng việc định lượng số transcript vì PCR không làm thay đổi trình tự của UMI.

4) Poly(dT)VN: Trình tự poly(dT) dài 30 nucleotide giúp bắt giữ đuôi poly(A) của mRNA.

Single Cell 3′ v3.1 Gel Bead đánh dấu lên RNA của tế bào bằng cách nào?

Sau khi tạo được các GEM có chứa tế bào bằng hệ thống Chromium (Hình 4). Một phản ứng RT sẽ diễn ra bên trong vi giọt, phản ứng RT này sử dụng mồi là primer gắn trên gel bead vì vậy cDNA được tạo ra sẽ mang 4 vùng trình tự có trên primer gồm TrueSeq Read 1, 10X Barcode, UMI và Poly(dT)VN. Enzyme RT được sử dụng trong công nghệ của 10X Genomics có đặc điểm tự động gắn thêm một số nucleotide C vào đầu 3′ của cDNA sau khi đã đi hết chiều dài của đoạn mRNA. Đuôi poly C của cDNA sẽ tiếp tục bắt cặp với 3 nucleotide rG trên đầu 3′ của 1 trình tự gọi là TSO (Template Switch Oligo), enzyme RT sẽ sử dụng TSO làm khuôn mới và tiếp tục tổng hợp kéo dài cDNA (Hình 6). Vùng trình được tổng hợp sử dụng khuôn TSO đóng vai trò là vị trí mồi PCR thứ 2 bám vào (2nd PCR handle) trong bước khuếch đại cDNA sau khi gắn barcode.

Sau khi đã tạo được cDNA mang barcode, các GEM sẽ được loại bỏ để thu hồi cDNA mang barcode. Vì đã đánh dấu bằng barcode nên việc trộn chung các cDNA của các tế bào khác nhau vào cùng 1 ống nghiệm không làm ảnh hưởng các bước phân tích phía sau. Toàn bộ cDNA thu hồi sẽ được khuếch đại bằng PCR để đảm bảo đủ lượng cDNA cần cho phân tích dữ liệu, bởi vì mỗi một tế bào động vật có vú chứa khoảng 1 pg RNA tổng số và chưa đến 0.1 pg mRNA, trong khi đó lượng mRNA cần để đủ dữ liệu phân tích trong giải trình tự phải tính bằng μg, tương đương hàng triệu tế bào.

Chuẩn bị thư viện Single-cell 3′ gene expression từ cDNA mang barcode

Vì thư viện tế bào đơn bản chất là 1 thư viện giải trình tự, kích thước của thư viện tế bào đơn cũng bị giới hạn nằm trong khoảng 300 ~ 600 bp. Đồng thời, việc giữ phía mang barcode của cDNA (Hình 6) là bắt buộc trong phân tích tế bào đơn. Do đó, thư viện single-cell 3′ gene expression chỉ giữ lại đoạn cDNA mang thông tin (insert sequence) dài khoảng 100 ~ 400 bp, tương ứng với 100 ~ 400 nucleotide ở đầu 3′ của mRNA (Hình 7).

So với “phía mang barcode” của cDNA, thư viện single-cell 3′ gene expression được gắn thêm các trình tự:

1) P5 và P7: Trình tự adapter để tạo các cụm DNA (cluster) trong công nghệ giải trình tự NGS

2) Read 1 và Read 2: Trình tự TrueSeq Read 1 và TrueSeq Read 2 hoàn chỉnh để mồi giải trình tự bám vào

3) Index: Trình tự để phân biệt giữa mẫu này với mẫu khác. Có thể sử dụng đồng thời 2 index nếu giải trình tự nhiều mẫu.

Phân tích dữ liệu giải trình tự tế bào đơn

Với cấu trúc thư viện single-cell 3′ gene expression (Hình 7), mỗi một đoạn trình tự giải được sẽ gồm 4 thông tin quan trọng:

1) Index: Trình tự đại diện cho mẫu, các trình tự có index giống nhau thì có nguồn gốc từ cùng 1 mẫu.

2) 10X Barcode (10X BC hay Cell BC): Trình tự đại diện cho tế bào, các trình tự có 10X Barcode giống nhau thì có cùng nguồn gốc từ 1 tế bào.

3) Insert sequence (hay transcript): Trình tự mang thông tin đầu 3′ của mRNA, đây là vùng trình tự giúp xác định mRNA có nguồn gốc từ gene nào.

4) UMI: Trình tự đại diện cho phân tử bản sao phiên mã (transcript), mỗi UMI khác nhau sẽ được tính là 1 bản sao phiên mã (transcript) của gene đó, còn nếu 2 trình tự có UMI giống nhau thì đó là sự trùng lặp do PCR khuếch đại cDNA gây ra. Nhờ có UMI, việc định lượng biểu hiện gene của từng tế bào không bị ảnh hưởng bởi các bước PCR trong quy trình.

Như vậy, công nghệ phân tích biểu hiện gene của tế bào đơn bằng giải trình tự đầu 3′ của mRNA (single-cell 3′ gene expression) cho phép xác định dữ liệu hệ phiên mã (transcriptomic) của từng tế bào bằng cách nhóm dữ liệu theo 10X Barcode, đồng thời định lượng mức độ biểu hiện của từng gene bằng cách đếm số UMI. Tuy nhiên dữ liệu thu được chỉ chứa thông tin ở đầu 3′ của mRNA, vì vậy single-cell 3′ gene expression không phù hợp để phân tích thụ thể của tế bào lympho (TCR/BCR) vì vùng V(D)J mang thông tin của thụ thể TCR/BCR nằm tập trung ở đầu 5′ của mRNA. Chính vì lý do này, 10X Genomics đã phát triển thêm bộ kit single-cell 5′ gene expression và single-cell V(D)J Enriched cho phép giải trình tự ở đầu 5′ với một số thay đổi nhỏ trong cấu tạo gel bead và cách tạo cDNA mang barcode (xem thêm TẠI ĐÂY).

Tài liệu tham khảo

1) 10X Genomics (PDF). Chromium Single Cell 3′ Reagent Kits User Guide (v3.1 Chemistry).

2) 10X Genomics (PDF). Chromium Single Cell V(D)J Reagent Kits (v1.1 Chemistry).

3) 10X Genomics (PDF). Explore Cellular Diversity, Cell by Cell.

4) 10X Genomics (PDF). The power of single cell partitioning, Chromium Brochure.