Memprediksi Struktur 3D Protein Hemoglobin Dengan Alphafold 2 – Menuju AI — Teknologi, Sains, dan Rekayasa Terbaik

Pengarang: mer zgür

Kecerdasan buatan

Dari https://www.researchgate.net/figure/Structure-of-Hemoglobin-Protein-Hemoglobingentr-https-hemoglobingentr-Access_fig22_349573893

Makalah akademis Deepmind keluar di Nature yang menjelaskan semua detail model AlphaFold v2 pemenang CASP untuk memprediksi struktur protein. Pada saat yang sama, mereka merilis semua kode open source di Github.

Dalam waktu singkat, notebook Google Colab telah dibuat. Berkat perkembangan ini, setiap orang dapat memprediksi protein favorit mereka.

Artikel ini akan melihat bagaimana kita dapat menggunakan Alphafoldv2 untuk membuat beberapa prediksi dan perubahan yang terjadi di dunia ilmiah.

Impian Ahli Biologi

Menurut paradoks Levinthal, dibutuhkan waktu lebih lama dari usia alam semesta untuk menghitung semua kemungkinan konfigurasi protein tipikal sebelum mencapai struktur 3D yang tepat.

Protein adalah komponen utama otot, tulang, organ, kulit. Protein sering disebut sebagai bahan penyusun tubuh manusia. Fungsi yang dilakukan protein sebagian besar terkait dengan bentuk lipatannya. Memprediksi bentuk protein dapat memecahkan beberapa tantangan terbesar dunia, seperti mengembangkan pengobatan yang efektif untuk penyakit dan menemukan enzim yang cocok untuk tugas tertentu.

Banyak struktur protein dapat ditentukan dengan teknik eksperimental seperti difraksi sinar-X atau neutron, resonansi magnetik nuklir (NMR), atau cryo-microscopy elektron (juga disebut cryo-electron microscopy, cryo-EM). Tetapi teknik ini sulit, lambat, dan mahal. Juga, pada beberapa jenis protein, teknik ini tidak bekerja dengan baik.

Di sinilah AlphaFold datang untuk membantu. Ini adalah algoritma berbasis jaringan saraf yang bekerja dengan sangat baik pada masalah pelipatan protein. Di masa depan, kami dapat memprediksi pelipatan protein secara realistis menggunakan algoritme seperti Alphafold.

Sekarang saatnya AI dalam biologi.

Alfafold 2

Dari https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology

Di bagian ini, kita akan melihat cara kerja Alphafold secara umum dan perkembangannya.

SPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFEALERMFLSEALERMFLSFPTTKTYF

Alphafold mengambil urutan asam amino pada tingkat yang paling sederhana dan memprediksi posisi dan sudut ikatan molekul dalam ruang 3D.
Menariknya, Alphafold menggunakan pembelajaran tanpa pengawasan dengan cara yang mirip dengan GPT-3.

Menurut diagram dalam posting blog DeepMind, MSA (Multiple Sequence Alignment) tampaknya menjadi langkah awal yang penting dalam model. GPT-3
GPT-3 mempelajari fitur umum bahasa dengan menggunakan data teks yang tidak berlabel. Demikian pula, Alphafold belajar embedding dari urutan protein dengan fungsi serupa.

Dua sekuens protein mungkin mirip dengan yang lain karena keduanya memiliki asal evolusi yang sama. Semakin mirip urutan asam amino tersebut, semakin besar kemungkinan protein tersebut memiliki tujuan yang sama untuk organisme tempat mereka dibuat.

Beberapa Protein bermutasi dan berevolusi, tetapi strukturnya cenderung tetap serupa meskipun ada perubahan. Gagasan menggunakan mutasi yang berkorelasi untuk mengekstrak informasi struktural dari MSA sudah berumur puluhan tahun dan mengumpulkan potongan protein lain untuk memodelkan struktur target Anda.

Salah satu perbedaan utama antara AlphaFold 1 dan AlphaFold 2 adalah bahwa AlphaFold 1 menggunakan CNN, dan versi baru menggunakan Transformers.

Setelah memahami struktur algoritmik, kita dapat mulai mempelajari pengetahuan domain.

Protein hemoglobin

Hemoglobin adalah molekul protein dalam sel darah merah yang membawa oksigen dari paru-paru ke jaringan tubuh dan mengembalikan karbon dioksida dari jaringan kembali ke paru-paru.

Hemoglobin juga berperan penting dalam menjaga bentuk sel darah merah. Oleh karena itu, struktur hemoglobin yang tidak normal dapat mengganggu pembentukan sel darah merah dan menghambat fungsi dan alirannya melalui pembuluh darah.

Hemoglobin terdiri dari subunit protein. Subunit protein adalah molekul protein tunggal yang berkumpul dengan molekul protein lain untuk membentuk kompleks protein. Sebuah proses yang mirip dengan membuat mobil, sel memproduksi bagian yang berbeda.

Dalam beberapa kumpulan protein, satu subunit mungkin merupakan “subunit katalitik” yang secara enzimatik mengkatalisis reaksi, sedangkan “subunit pengatur” akan memfasilitasi atau menghambat aktivitas.

Pada manusia, hemoglobin A (bentuk utama hemoglobin yang ada pada orang dewasa) dikode oleh HBA1, HBA2, dan HBB. Subunit hemoglobin alfa 1 dan alfa 2 dikode oleh gen HBA1 dan HBA2. Gen HBB mengkode subunit beta.

Mendapatkan Urutan

Sebelum membuat prediksi, kita membutuhkan informasi urutan asam amino dari protein. Kami juga dapat mengekstrak urutan asam amino dari DNA menggunakan urutan asam amino langsung.

Menggunakan database NCBI, kita dapat mengakses informasi dari protein yang dikenal dan mengunduhnya dalam format fasta.

hemoglobin subunit alfa [Homo sapiens]

Dikirim ke → File → Format(Fasta) → Buat File

Apa itu NCBI?

Pusat Informasi Bioteknologi Nasional (NCBI) mengembangkan dan memelihara basis data molekuler dan bibliografi sebagai bagian dari Perpustakaan Kedokteran Nasional (NLM). Mereka tidak menghasilkan data mereka sendiri. Anda dapat menemukan banyak data di sini.

Apa itu Format Fasta?

Dalam bioinformatika dan biokimia, format FASTA adalah format berbasis teks untuk mewakili urutan nukleotida atau urutan asam amino, di mana nukleotida atau asam amino diwakili menggunakan kode huruf tunggal.

Mari Gunakan Alfafold 2

Kolaborasi Google

Saya membagikan blok kode penting di sini. Semua kode dapat diakses dari Colab Notebook. Notebook ini TIDAK menyertakan pipeline generasi MSA alphafold2 dan dirancang untuk bekerja dengan urutan tunggal (tanpa MSA).

Sementara akurasi akan hampir identik dengan sistem AlphaFold penuh pada banyak target, sebagian kecil memiliki ketidakakuratan penurunan yang besar karena MSA yang lebih kecil dan kurangnya template. Untuk keandalan terbaik, sebaiknya gunakan AlphaFold open source penuh.

Mari kita membaca file fasta yang kita download dan mendapatkan informasi urutan yang kita butuhkan.

dari Bio import SeqIO fasta_sequences = SeqIO.parse(“sequence.fasta”,’fasta’) untuk direkam di fasta_sequences: print(record) protein_seq =str(record.seq) ID: NP_000508.1 Nama: NP_000508.1 Deskripsi: NP_000508 .1 subunit hemoglobin alfa [Homo sapiens]
Jumlah fitur: 0 Seq(‘MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSA…KYR’)

Membuat Prediksi

%%time feature_dict = { **pipeline.make_sequence_features(sequence=protein_seq, description=”none”, num_res=len(query_sequence)), **pipeline.make_msa_features(msas=[[query_sequence]], deletion_matrices=[[[0]*len(query_sequence)]]), **mk_mock_template(query_sequence)} plddts = predict_structure(“alphaH”,feature_dict,model_runners)

Untuk hemoglobin subunit alpha, butuh 46 menit untuk memprediksi. Ketika prediksi selesai, itu akan disimpan di direktori dengan file alphaH_unrelaxed_model_1.pdb.

visualisasi

Format pdb dengan demikian memberikan deskripsi dan anotasi struktur protein dan asam nukleat termasuk koordinat atom, penetapan struktur sekunder, serta konektivitas atom.

p = py3Dmol.view(js=’https://3dmol.org/build/3Dmol.js’)
p.addModel(open(“alphaH_unrelaxed_model_1.pdb”,’r’).read(),’pdb’)
p.setStyle({‘cartoon’: {‘color’:’spectrum’}})
p.zoomKe ()
hal.tampilkan()
Gambar Oleh Penulis (hemoglobin subunit alpha)

Dan kita dapat memvisualisasikan kepercayaan diri per posisi. Keyakinan tampaknya tidak terlalu tinggi.

Gambar Oleh Penulis

Kesimpulan

Transisi Alphafold dari akademisi ke dunia open-source dapat menyebabkan banyak revolusi. Banyak jenis penelitian ilmiah akan dipercepat dan penemuan yang sangat penting dapat dibuat berkat Alphafold.

Suatu hari, Alphafold mungkin menjadi AI pertama yang memenangkan Hadiah Nobel.

Memprediksi Struktur 3D Protein Hemoglobin Dengan Alphafold 2 awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI