Tin sinh học cơ bản – vài thao tác ban đầu với NCBI
Nếu bạn đã bắt tay vào nghiên cứu một lĩnh vực nào đó của sinh học hay y học, nhiều khả năng bạn đã nghe và đã sử dụng đến các tài nguyên của NCBI.
Thư viện thông tin NCBI mang lại gì và bạn đã biết khai thác tối ưu các thông tin sẵn có trên trang web này hay chưa? Sẽ có một loạt bài để giúp các bạn hiểu biết thêm về NCBI nhằm hỗ trợ tốt hơn trong công việc nghiên cứu, hướng đến chủ đề tin sinh học cơ bản.
NCBI là gì?
NCBI là ký tự viết tắt của The National Center for Biotechnology Information, một nhánh của National Institutes of Health (NIH, một viện của Mỹ), được thành lập từ năm 1988.
NCBI quản lý hàng loạt cơ sở dữ liệu liên quan đến công nghệ sinh học và y sinh, và là một nguồn quan trọng đối với các dịch vụ và công cụ tin sinh học. Các cơ sở dữ liệu chính bao gồm GenBank – thông tin về các trình tự ADN, PubMed – cơ sở dữ liệu trích dẫn các tài liệu hàn lâm về y – sinh học.
Nơi đây cũng “lưu trữ” cơ sở dữ liệu về biểu hiện gen, protein, biến dị cũng như các công cụ phân tích nhiều đối tượng của sinh học. Ngoài ra còn có một mảng các tư liệu về các công bố và hợp chất hóa học. Chúng ta sẽ cùng khai thác kho dữ liệu khổng lồ này dần dần.
Giới thiệu chung về giao diện của NCBI
Truy cập trang chủ của NCBI theo đường link https://www.ncbi.nlm.nih.gov/, sẽ có giao diện như sau:
Ở màn hình trang chủ, thứ đập vào mắt chúng ta là “Submit”, “Research , Develop”… tuy nhiên những người dùng cơ bản chưa cần quan tâm đến những mục này. Thứ mà chúng ta cần khai thác chính là danh mục các “tài nguyên” phổ biến như chúng ta có thể thấy ở cột bên trái và bên phải. Để có thể thấy tất cả các cơ sở dữ liệu, hãy bấm vào “All database”.
Khai thác thông tin trong PubMed
Chúng ta sẽ thử khai thác cơ sở dữ liệu về các công bố y sinh học tại cơ sở dữ liệu PubMed. Tại giao diện trang chủ, bấm vào All Databases để tìm loại cơ sở dữ liệu là PubMed
Tại ô tìm kiếm, hãy gõ một từ khóa quan tâm và Enter hoặc bấm Search ngay bên cạnh. Ví dụ, mình đang quan tâm và muốn có những ý tưởng để bắt đầu một nghiên cứu về protein ức chế khối u p53, hãy vào PubMed xem người khác đã nghiên cứu gì về nó, bằng cách tìm theo từ khóa ‘p53’ và kết quả trả về là tất cả các công bố có liên quan đến p53.
+ 1 – Đang tìm kiếm loại cơ sở dữ liệu là PubMed
+ 2 – Từ khóa tìm kiếm là “p53”
+ 3 – Tổng số kết quả trả về có liên quan tới từ khóa
+ 4 – Phân loại bài báo trong tất cả các kết quả trả về : thử nghiệm lâm sàng, tổng quan hoặc tùy chọn …
+ 5 – Khả năng truy cập vào bài các bài báo, chia làm 3 mức độ xem : xem Abstract, xem Full text free hoặc xem Full text (cần đăng nhập/trả phí)
+ 6 – Thu hẹp phạm vi tìm kiếm theo thời gian công bố: 5 năm, 10 năm hoặc tùy chọn
+ 7 (Species) – chọn đối tượng nghiên cứu
+ 8 – Format của kết quả đang hiển thị trên trang (trên hình đang thể hiện dạng Summary tức Tóm tắt thông tin bài báo). Có nhiều tùy chọn khác.
+ 9 – Sắp xếp kết quả trả về trên trang này : công bố gần đây nhất, phù hợp từ khóa nhất, …
+ 10 – Số kết quả trả về trên mỗi trang (hiện tại là 20 kết quả)
+ 11 – Tên bào báo được công bố
+ 12 – Tên (các) tác giả
+ 13 – Tạp chí mà công trình này được công bố hoặc lĩnh vực nghiên cứu
+ 14 – Năm công bốbài báo
+ 15 – Số DOI (A digital object identifier (DOI) tạm dịch là mã nhận dạng đối tượng số – một chuỗi chữ và số được chỉ định bởi cơ quan đăng ký (Tổ chức Sở hữu trí tuệ Quốc tế) để xác định nội dung và cung cấp liên kết liên tục đến vị trí của nó trên Internet. Nhà xuất bản chỉ định một DOI khi bài báo được công bố và cung cấp dưới dạng điện tử.)
+ 16 – Số PMID (Số được chỉ định bởi Thư viện Y học Quốc gia NIH cho các tài liệu được lập chỉ mục trong PubMed)
+ 17 – Liệt kê các nghiên cứu liên quan cũng chứa từ khóa
+ 18 – Tìm kiếm nâng cao, cho phép tìm nhanh hơn nếu biết tên tác giả, ngày công bố, v.v… Giao diện khi lựa chọn nâng cao:
+ 19 – Đăng ký nhận thông báo các kết quả mới nhất liên quan đến từ khóa (hình )
Khi click chọn một bài báo trong số kết quả trả về, chúng ta được chuyển sang trang sau
Tìm kiếm thông tin trình tự Nucleotide
Một ví dụ tiếp theo là cơ sở dữ liệu về trình tự ADN. Vẫn Tại giao diện trang chủ mục All Database chọn loại dữ liệu là Nucleotide. Gõ từ khóa cần tìm và Enter hoặc Search.
+ 1 – Các kết quả trả về là các bài báo liên quan đến các giới sinh vật khác nhau được phân loại riêng
+ 2 – Loại phân tử được đề cập trong tất cả các kết quả
+ 3 – Nguồn cấp dữ liệu (hầu hết là Genbank)
+ 4 – Độ dài trình tự của đoạn cần tìm kiếm
+ 5 – Lọc kết quả theo từng loài
+ 6 – Tiêu đề của tệp tin
+ 7 – Dạng phân tử DNA và kích cỡ
+ 8 – Mã số truy cập trình tự này trong GenBank
+ 9 – Xem thông tin về gen này trong GenBank, hoặc xem trình tự bằng ngôn ngữ FASTA (Hình) hoặc xem bản đồ nhiễm sắc thể chứa gen quan tâm (Hình)
Khi click chọn vào tiêu đề tệp tin hoặc chọn xem trong GenBank đều ra kết quả như sau (ví dụ chọn bài báo đầu tiên):
Kéo tiếp xuống dưới …
Nếu bấm vào phần màu xanh gạch chân sẽ tìm đến một trình tự ở dưới. Ví dụ khi bấm vào một “exon” nào đó trong phần FEATURE sẽ cho ra như hình
Kéo xuống dưới nữa, từ đây xuống đến hết (//) là trình tự của gene. Chúng ta có thể sao chép trình tự nucleotide này để nghiên cứu kỹ hơn bằng các công cụ khác.
Mời các bạn tham khảo các bài hướng dẫn tiếp theo với chủ đề Tin sinh học cơ bản thông qua việc khai thác cơ sở dữ liệu khổng lồ nhưng miễn phí của NCBI.
iceberg (biên tập)
tapchisinhhoc.com
Có thể bạn quan tâm: Phần mềm xem giải phẫu 3D miễn phí