Bioinformatika
Bioinformatika
(bahasa Inggris: bioinformatics) adalah (ilmu yang mempelajari) penerapan
teknik komputasional untuk mengelola dan menganalisis informasi biologis.
Bidang ini mencakup penerapan metode-metode matematika, statistika, dan
informatika untuk memecahkan masalah-masalah biologis, terutama dengan
menggunakan sekuens DNA dan asam amino serta informasi yang berkaitan
dengannya. Contoh topik utama bidang ini meliputi basis data untuk mengelola
informasi biologis, penyejajaran sekuens (sequence alignment), prediksi
struktur untuk meramalkan bentuk struktur protein maupun struktur sekunder RNA,
analisis filogenetik, dan analisis ekspresi gen.
Sejarah
Istilah
bioinformatics mulai dikemukakan pada pertengahan era 1980-an untuk mengacu
pada penerapan komputer dalam biologi. Namun, penerapan bidang-bidang dalam
bioinformatika (seperti pembuatan basis data dan pengembangan algoritma untuk
analisis sekuens biologis) sudah dilakukan sejak tahun 1960-an.
Kemajuan
teknik biologi molekular dalam mengungkap sekuens biologis dari protein (sejak
awal 1950-an) dan asam nukleat (sejak 1960-an) mengawali perkembangan basis
data dan teknik analisis sekuens biologis. Basis data sekuens protein mulai
dikembangkan pada tahun 1960-an di Amerika Serikat, sementara basis data
sekuens DNA dikembangkan pada akhir 1970-an di Amerika Serikat dan Jerman (pada
European Molecular Biology Laboratory, Laboratorium Biologi Molekular Eropa).
Penemuan teknik sekuensing DNA yang lebih cepat pada pertengahan 1970-an
menjadi landasan terjadinya ledakan jumlah sekuens DNA yang berhasil
diungkapkan pada 1980-an dan 1990-an, menjadi salah satu pembuka jalan bagi
proyek-proyek pengungkapan genom, meningkatkan kebutuhan akan pengelolaan dan
analisis sekuens, dan pada akhirnya menyebabkan lahirnya bioinformatika.
Perkembangan
Internet juga mendukung berkembangnya bioinformatika. Basis data bioinformatika
yang terhubung melalui Internet memudahkan ilmuwan mengumpulkan hasil
sekuensing ke dalam basis data tersebut maupun memperoleh sekuens biologis
sebagai bahan analisis. Selain itu, penyebaran program-program aplikasi
bioinformatika melalui Internet memudahkan ilmuwan mengakses program-program
tersebut dan kemudian memudahkan pengembangannya.
Penerapan utama
bioinformatika
·
Basis data sekuens biologis
Sesuai
dengan jenis informasi biologis yang disimpannya, basis data sekuens biologis
dapat berupa basis data primer untuk menyimpan sekuens primer asam nukleat
maupun protein, basis data sekunder untuk menyimpan motif sekuens protein, dan
basis data struktur untuk menyimpan data struktur protein maupun asam nukleat.
Basis
data utama untuk sekuens asam nukleat saat ini adalah GenBank (Amerika
Serikat), EMBL (Eropa), dan DDBJ(Inggris) (DNA Data Bank of Japan, Jepang).
Ketiga basis data tersebut bekerja sama dan bertukar data secara harian untuk
menjaga keluasan cakupan masing-masing basis data. Sumber utama data sekuens
asam nukleat adalah submisi langsung dari periset individual, proyek sekuensing
genom, dan pendaftaran paten. Selain berisi sekuens asam nukleat, entri dalam
basis data sekuens asam nukleat umumnya mengandung informasi tentang jenis asam
nukleat (DNA atau RNA), nama organisme sumber asam nukleat tersebut, dan
pustaka yang berkaitan dengan sekuens asam nukleat tersebut.
Sementara
itu, contoh beberapa basis data penting yang menyimpan sekuens primer protein
adalah PIR (Protein Information Resource, Amerika Serikat), Swiss-Prot (Eropa),
dan TrEMBL (Eropa). Ketiga basis data tersebut telah digabungkan dalam UniProt
(yang didanai terutama oleh Amerika Serikat). Entri dalam UniProt mengandung
informasi tentang sekuens protein, nama organisme sumber protein, pustaka yang
berkaitan, dan komentar yang umumnya berisi penjelasan mengenai fungsi protein
tersebut.
BLAST
(Basic Local Alignment Search Tool) merupakan perkakas bioinformatika yang
berkaitan erat dengan penggunaan basis data sekuens biologis. Penelusuran BLAST
(BLAST search) pada basis data sekuens memungkinkan ilmuwan untuk mencari
sekuens asam nukleat maupun protein yang mirip dengan sekuens tertentu yang
dimilikinya. Hal ini berguna misalnya untuk menemukan gen sejenis pada beberapa
organisme atau untuk memeriksa keabsahan hasil sekuensing maupun untuk
memeriksa fungsi gen hasil sekuensing. Algoritma yang mendasari kerja BLAST
adalah penyejajaran sekuens.
PDB (Protein Data
Bank, Bank Data Protein) adalah basis data tunggal yang menyimpan model
struktural tiga dimensi protein dan asam nukleat hasil penentuan eksperimental
(dengan kristalografi sinar-X, spektroskopi NMR dan mikroskopi elektron). PDB
menyimpan data struktur sebagai koordinat tiga dimensi yang menggambarkan
posisi atom-atom dalam protein ataupun asam nukleat.
·
Penyejajaran sekuens
Penyejajaran
sekuens (sequence alignment) adalah proses penyusunan/pengaturan dua atau lebih
sekuens sehingga persamaan sekuens-sekuens tersebut tampak nyata. Hasil dari
proses tersebut juga disebut sebagai sequence alignment atau alignment saja.
Baris sekuens dalam suatu alignment diberi sisipan (umumnya dengan tanda
"–") sedemikian rupa sehingga kolom-kolomnya memuat karakter yang
identik atau sama di antara sekuens-sekuens tersebut. Berikut adalah contoh
alignment DNA dari dua sekuens pendek DNA yang berbeda, "ccatcaac"
dan "caatgggcaac" (tanda "|" menunjukkan kecocokan atau
match di antara kedua sekuens).
Sequence
alignment merupakan metode dasar dalam analisis sekuens. Metode ini digunakan
untuk mempelajari evolusi sekuens-sekuens dari leluhur yang sama (common
ancestor). Ketidakcocokan (mismatch) dalam alignment diasosiasikan dengan
proses mutasi, sedangkan kesenjangan (gap, tanda "–") diasosiasikan
dengan proses insersi atau delesi. Sequence alignment memberikan hipotesis atas
proses evolusi yang terjadi dalam sekuens-sekuens tersebut. Misalnya, kedua
sekuens dalam contoh alignment di atas bisa jadi berevolusi dari sekuens yang
sama "ccatgggcaac". Dalam kaitannya dengan hal ini, alignment juga
dapat menunjukkan posisi-posisi yang dipertahankan (conserved) selama evolusi
dalam sekuens-sekuens protein, yang menunjukkan bahwa posisi-posisi tersebut
bisa jadi penting bagi struktur atau fungsi protein tersebut.
Selain
itu, sequence alignment juga digunakan untuk mencari sekuens yang mirip atau
sama dalam basis data sekuens. BLAST adalah salah satu metode alignment yang
sering digunakan dalam penelusuran basis data sekuens. BLAST menggunakan
algoritma heuristik dalam penyusunan alignment.
Beberapa
metode alignment lain yang merupakan pendahulu BLAST adalah metode
"Needleman-Wunsch" dan "Smith-Waterman". Metode
Needleman-Wunsch digunakan untuk menyusun alignment global di antara dua atau
lebih sekuens, yaitu alignment atas keseluruhan panjang sekuens tersebut.
Metode Smith-Waterman menghasilkan alignment lokal, yaitu alignment atas
bagian-bagian dalam sekuens. Kedua metode tersebut menerapkan pemrograman
dinamik (dynamic programming) dan hanya efektif untuk alignment dua sekuens
(pairwise alignment)
Clustal
adalah program bioinformatika untuk alignment multipel (multiple alignment),
yaitu alignment beberapa sekuens sekaligus. Dua varian utama Clustal adalah
ClustalW dan ClustalX.
Metode
lain yang dapat diterapkan untuk alignment sekuens adalah metode yang
berhubungan dengan Hidden Markov Model ("Model Markov Tersembunyi",
HMM). HMM merupakan model statistika yang mulanya digunakan dalam ilmu komputer
untuk mengenali pembicaraan manusia (speech recognition). Selain digunakan
untuk alignment, HMM juga digunakan dalam metode-metode analisis sekuens
lainnya, seperti prediksi daerah pengkode protein dalam genom dan prediksi
struktur sekunder protein.
·
Prediksi struktur protein
Secara
kimia/fisika, bentuk struktur protein diungkap dengan kristalografi sinar-X
ataupun spektroskopi NMR, namun kedua metode tersebut sangat memakan waktu dan
relatif mahal. Sementara itu, metode sekuensing protein relatif lebih mudah
mengungkapkan sekuens asam amino protein. Prediksi struktur protein berusaha meramalkan
struktur tiga dimensi protein berdasarkan sekuens asam aminonya (dengan kata
lain, meramalkan struktur tersier dan struktur sekunder berdasarkan struktur
primer protein). Secara umum, metode prediksi struktur protein yang ada saat
ini dapat dikategorikan ke dalam dua kelompok, yaitu metode pemodelan protein
komparatif dan metode pemodelan de novo.
Pemodelan
protein komparatif (comparative protein modelling) meramalkan struktur suatu
protein berdasarkan struktur protein lain yang sudah diketahui. Salah satu
penerapan metode ini adalah pemodelan homologi (homology modelling), yaitu
prediksi struktur tersier protein berdasarkan kesamaan struktur primer protein.
Pemodelan homologi didasarkan pada teori bahwa dua protein yang homolog
memiliki struktur yang sangat mirip satu sama lain. Pada metode ini, struktur
suatu protein (disebut protein target) ditentukan berdasarkan struktur protein
lain (protein templat) yang sudah diketahui dan memiliki kemiripan sekuens
dengan protein target tersebut. Selain itu, penerapan lain pemodelan komparatif
adalah protein threading yang didasarkan pada kemiripan struktur tanpa
kemiripan sekuens primer. Latar belakang protein threading adalah bahwa
struktur protein lebih dikonservasi daripada sekuens protein selama evolusi; daerah-daerah
yang penting bagi fungsi protein dipertahankan strukturnya. Pada pendekatan
ini, struktur yang paling kompatibel untuk suatu sekuens asam amino dipilih
dari semua jenis struktur tiga dimensi protein yang ada. Metode-metode yang
tergolong dalam protein threading berusaha menentukan tingkat kompatibilitas
tersebut.
Dalam pendekatan
de novo atau ab initio, struktur protein ditentukan dari sekuens primernya
tanpa membandingkan dengan struktur protein lain. Terdapat banyak kemungkinan
dalam pendekatan ini, misalnya dengan menirukan proses pelipatan (folding)
protein dari sekuens primernya menjadi struktur tersiernya (misalnya dengan
simulasi dinamika molekular), atau dengan optimisasi global fungsi energi
protein. Prosedur-prosedur ini cenderung membutuhkan proses komputasi yang
intens, sehingga saat ini hanya digunakan dalam menentukan struktur
protein-protein kecil. Beberapa usaha telah dilakukan untuk mengatasi
kekurangan sumber daya komputasi tersebut, misalnya dengan superkomputer
(misalnya superkomputer Blue Gene [1] dari IBM) atau komputasi terdistribusi
(distributed computing, misalnya proyek Folding@home) maupun komputasi grid.
Analisis ekspresi gen
Ekspresi
gen dapat ditentukan dengan mengukur kadar mRNA dengan berbagai macam teknik
(misalnya dengan microarray ataupun Serial Analysis of Gene Expression
["Analisis Serial Ekspresi Gen", SAGE]). Teknik-teknik tersebut
umumnya diterapkan pada analisis ekspresi gen skala besar yang mengukur
ekspresi banyak gen (bahkan genom) dan menghasilkan data skala besar.
Metode-metode penggalian data (data mining) diterapkan pada data tersebut untuk
memperoleh pola-pola informatif. Sebagai contoh, metode-metode komparasi
digunakan untuk membandingkan ekspresi di antara gen-gen, sementara
metode-metode klastering (clustering) digunakan untuk mempartisi data tersebut
berdasarkan kesamaan ekspresi gen.
Bioinformatika di Indonesia
Saat
ini mata ajaran bioinformatika maupun mata ajaran dengan muatan bioinformatika
sudah diajarkan di beberapa perguruan tinggi di Indonesia. Sekolah Ilmu dan
Teknologi Hayati ITB menawarkan mata kuliah "Pengantar
Bioinformatika" untuk program Sarjana dan mata kuliah "Bioinformatika"
untuk program Pascasarjana. Fakultas Teknobiologi Universitas Atma Jaya,
Jakarta menawarkan mata kuliah "Pengantar Bioinformatika" sebagai
mata kuliah wajib dan "Pemodelan Struktur Protein" sebagai mata kuliah
pilihan untuk tingkat program Sarjana. Mata kuliah "Bioinformatika"
diajarkan pada Program Pascasarjana Kimia Fakultas MIPA Universitas Indonesia
(UI), Jakarta. Mata kuliah "Proteomik dan Bioinformatika" termasuk
dalam kurikulum program S3 bioteknologi Universitas Gadjah Mada (UGM), Yogyakarta.
Materi bioinformatika termasuk di dalam silabus beberapa mata kuliah untuk
program sarjana maupun pascasarjana biokimia,biologi, dan bioteknologi pada
Institut Pertanian Bogor (IPB). Selain itu, riset-riset yang mengarah pada
bioinformatika juga telah dilaksanakan oleh mahasiswa program S1 Ilmu Komputer
maupun program pascasarjana biologi serta bioteknologi IPB.
Riset
bioinformatika protein dilaksanakan sebagai bagian dari aktivitas riset
rekayasa protein pada Laboratorium Rekayasa Protein, Pusat Penelitian
Bioteknologi Lembaga Ilmu Pengetahuan Indonesia (LIPI), Cibinong, Bogor.
Lembaga Biologi Molekul Eijkman, Jakarta, secara khusus memiliki laboratorium
bioinformatika sebagai fasilitas penunjang kegiatan risetnya. Selain itu, basis
data sekuens DNA mikroorganisme asli Indonesia sedang dikembangkan di UI.
0 komentar:
Posting Komentar