Sử dụng máy học để phát hiện đột biến trong trình tự bộ gen tương tự của các mẫu ung thư

Một nhóm các nhà nghiên cứu làm việc tại Viện Francis Crick đã phát triển một cách để tìm ra các đột biến trong các vùng gen tương tự của các mẫu ung thư. Trong bài báo được xuất bản trên tạp chí Nature Biotechnology của họ, nhóm nghiên cứu đã mô tả việc sử dụng một thuật toán máy học để phát hiện các đột biến ung thư trong các phần phi độc nhất của bộ gen.

Nguồn: CC0 Public Domain

Là một phần của lịch sử tiến hóa của loài người, các phần của bộ gen đã trải qua quá trình sắp xếp lại, và trong một số trường hợp, có sự sao chép. Sự sao chép này đã được phát hiện là có vấn đề khi các nhà nghiên cứu cố gắng tìm ra các đột biến. Các phương pháp quét hiện tại đưa ra các trình tự ngắn không rõ ràng, điều này có nghĩa là các phân đoạn của bộ gen rất giống nhau không được đưa vào các báo cáo như vậy - và điều đó có nghĩa là đột biến bất kỳ nào đó cũng có thể sẽ bị bỏ sót. Trong nỗ lực mới này, các nhà nghiên cứu đã phát triển một phương tiện để tìm kiếm các đột biến trong các phần tương tự giống nhau của bộ gen.

Cách tiếp cận đầu tiên liên quan đến việc phát triển danh sách các vùng gen được biết đến là có sự tương tự với các vùng khác và sau đó sử dụng chúng để “dạy” thuật toán máy học cách nhận ra chúng. Sau đó, các nhà nghiên cứu đã sử dụng thuật toán  này để phát hiện các đột biến trong các mô khác nhau, bao gồm 2.658 mẫu thu thập được từ tập dữ liệu Phân tích toàn bộ bộ gen bệnh ung thư. Các nhà nghiên cứu đã phát hiện ra các đột biến trong 1.744 trình tự mã hóa cùng với hàng nghìn đột biến khác trong các trình tự không mã hóa. Họ cũng nhận thấy rằng thuật toán của họ có tỷ lệ phát hiện sai lệch là khoảng 7% và tỷ lệ xác thực là hơn 80%.

Các nhà nghiên cứu lưu ý rằng những đột biến liên quan đến trình tự mã hóa có tác động đến trình tự protein, một số đột biến có liên quan đến các loại ung thư. Họ cũng tìm thấy các trường hợp đột biến dẫn đến thay đổi protein, cũng có liên quan đến các loại ung thư cụ thể. Ví dụ, họ đã tìm thấy một đột biến lặp lại trong các gen KMT2C và PIK3CA. Họ cũng tìm thấy các đột biến có liên quan đến ung thư vú. Và họ đã tìm thấy các đột biến có liên quan đến các vùng điều hòa.

Các nhà nghiên cứu cho rằng,  các nhóm nghiên cứu khác có thể sử dụng kỹ thuật của họ như một phương tiện để khắc phục các vấn đề về việc bỏ sót các đột biến trong các vùng di truyền gần như trùng lặp.

P.T.T (NASATI), theo https://phys.org/news/2021-07-machine-learning-mutations-similar-genome-sequences.html, 20/7/2021