1 พ.ย. 2022 เวลา 17:21 • วิทยาศาสตร์ & เทคโนโลยี
เปิดตัวฐานข้อมูลรูปโปรตีนสวยๆ จาก Meta AI มีทั้งโปรตีนจากใต้ทะเลไปจนถึงลำไส้วัว
หลังจากที่ Deepmind ได้เปิดตัวฐานข้อมูลโครงสร้างโปรตีนที่ได้จากการทำนายของ AlphaFold เมื่อปีก่อน (https://alphafold.ebi.ac.uk/) ทาง Meta AI ก็พยายามสร้างโมเดล AI ที่เรียนรู้ภาษากรดอะมิโนแล้วทำนายโครงสร้างสามมิติออกมาและได้รวบรวมผลการทำนายมาเป็นฐานข้อมูลเช่นเดียวกันในชื่อ ESM metagenomic atlas (https://esmatlas.com/)
แหล่งข้อมูลกรดอะมิโนที่ Meta AI เลือกใช้มาจากฐานข้อมูลเมตาจีโนม MGnify (https://www.ebi.ac.uk/metagenomics/) ของสถาบันชีวสารสนเทศยุโรป (EBI) ที่รวบรวมข้อมูลดีเอ็นเอและโปรตีนจากหลายสภาพแวดล้อม
ภาพหน้าปกที่โชว์ไปคือภาพในหน้า explore ของ atlas อันนี้ จุดกลมๆที่เห็นแต่ลพจุดคือโครงสร้างโปรตีนหนึ่งตัว โทนสีที่เห็นเป็นตัวบ่งบอกว่ามีคนเคยทดลองหาโครงสร้างโปรตีนหน้าตาแบบที่ AI ทำนายมาหรือไม่
พอซูมเข้าไปอีกก็จะเห็นโครงสร้างโปรตีนแต่ละตัวได้เลย โปรตีนก็ดูน่ารักสุดได้เท่านี้แหละ บอกเลยว่านี่คือสวยแล้ว หน้าตาจริงๆ น่าเกลียดกว่านี้หน่อยหนึ่ง
ถ้ากดที่โครงสร้างโปรตีน สามารถดูคุณสมบัติของโปรตีนแต่ละตัวได้ด้วยนะ อย่างช่องแรกเป็นโปรตีนในฐานข้อมูล PDB (เก็บโครงสร้างโปรตีนที่คดทดลองหามาอย่างยากลำบาก ถ้าไม่มีพวกเขาเหล่านั้น AI ตัวนี้ก็ไม่มีวันเกิดขึ้น) ช่องต่อไปเป็นโปรตีนที่มีโครงสร้างสามมิติคล้ายกัน โดยหาจาก Foldseek โปรแกรมเปรียบเทียบโครงสร้างได้รวดเร็ว
ในส่วนของหน้า resource เราสามารถลองให้ AI ทำนายโปรตีนอะไรก็ได้แบบสดๆ เลยอันนี้เราลองใส่ชื่อคุณไอยู (DLWLRMA) ลงไปซ้ำๆ เพราะทุกตัวมันเป็นกรดอะมิโน (และเพลงคุณไอยูเพราะมาก!) อันนี้เป็น feature ที่เราไม่ได้เห็นในฐานข้อมูลโครงสร้างของ Deepmind ถ้าเราอยากลองเล่นกับ AlphaFold แบบง่ายๆ ทางเลือกที่ใกล้เคียงที่สุดคือการรัน Colabfold (https://colab.research.google.com/github/sokrypton/ColabFold/blob/main/AlphaFold2.ipynb) ซึ่งใช้เวลาหลายนาที แต่ที่เราคราวนี้กับโปรตีนคุณไอยูใช้เวลาเพียงไม่กี่วินาที
โหมดที่ลองอันแรกคือ Fold Sequence
ผลปรากฎว่า AI ทำนาย local structure อย่างค่อนข้างมั่นใจ (ดูได้จากคะแนน pLDDT) ว่ามันจะออกมาเป็นเกลียว alpha helix แหละทุกคน
ไปทำมาจริงๆ นะ ไม่ได้โม้ https://esmatlas.com/resources/fold/result?fasta_header=%3Eunnamed&sequence=DLWLRMADLWLRMADLWLRMADLWLRMADLWLRMADLWLRMADLWLRMADLWLRMADLWLRMADLWLRMA
ส่วน option อื่นๆ ในหน้า resource ก็จะมีให้ใส้ MGnify ID แล้วให้โครงสร้างที่ AI ทำนายไว้กลับมา (Lookup), ค้นหาโปรตีนที่มีลำดับกรดอะมิโนคล้ายกันในฐานข้อมูลอันนี้ เหมือนเวลาทำ blastp แต่ Meta AI หยิบตัวโปรแกรม MMseqs2 แทน MMseqs2 คือตัวเดียวกับที่ใช้หาญาติโปรตีนมาทำ multiple sequence alignment เพื่อดูตำแหน่งที่กรดอะมิโนวิวัฒนาการร่วมกันใน ColabFold (Search sequence), สุดท้ายถ้าอยากหาโปรตีนตัวคล้าย แต่คล้ายด้วยโครงสร้างสามมิติไม่ใช่กรดอะมิโน Meta AI ก็ได้เชื่อมต่อโปรแกรม Foldseek มาใช้ในงานนี้
น่าเสียดายที่ไม่มีโปรตีนตัวไหนที่โครงสร้างคล้ายหรือลำดับคล้ายกับโปรตีนคุณไอยูที่เราทำเลย และนี่คือลำดับโปรตีนคุณไอยูที่้เราลองใน FASTA format
> IU_protein
DLWLRMADLWLRMADLWLRMADLWLRMADLWLRMADLWLRMADLWLRMADLWLRMADLWLRMADLWLRMA
ที่แชร์ฐานข้อมูลตัวนี้เพราะคิดว่ารูปมันสวยดีและอาจจะเป็นแรงบันดาลใจให้คนอื่นๆ เข้ามาสำรวจจักรวาลโปรตีนอันกว้างใหญ่ไปด้วยกัน :)
อยากรู้รายละเอียดเกี่ยวกับ AI ว่ามันทำงานยังไง เชิญที่
โฆษณา