Gwiazdka nieaktywnaGwiazdka nieaktywnaGwiazdka nieaktywnaGwiazdka nieaktywnaGwiazdka nieaktywna
 

Poszukiwanie związków biologicznie aktywnych z wykorzystaniem metod uczenia maszynowego

An application of machine learning methods in the search for biologically active compounds


Sabina Smusz, Rafał Kurczab, Andrzej J. Bojarski
Instytut Farmakologii PAN, ul. Smętna 12, 31-343 Kraków



Różnorodne techniki obliczeniowe znajdują coraz szersze zastosowanie w procesie poszukiwania związków biologicznie aktywnych. Przeszukiwanie bibliotek struktur chemicznych (dostępnych komercyjnie lub wygenerowanych kombinatorycznie) w celu identyfikacji aktywnych substancji może być oparte o budowę i właściwości znanych ligandów (ang. ligand-based virtual screening) lub o znaną (lub przewidzianą) strukturę przestrzenną receptora białkowego (ang. structure-based virtual screening). Artykuł przedstawia przykłady wykorzystania różnorodnych narzędzi opartych o metody uczenia maszynowego w zadaniach wirtualnego skriningu wraz z różnymi sposobami reprezentacji danych umożliwiających ich zastosowanie w tym procesie, a także czynnikami wpływającymi na efektywność procesu klasyfikacji.

Słowa kluczowe: uczenie maszynowe, wirtualny skrining, komputerowo wspomagane projektowanie leków

An application of machine learning methods in the search for biologically active compounds
Various computational techniques have become widely applied in the search of compounds with potential biological activity. Searching libraries of molecules (commercially available or generated in a combinatorial way) in order to identify the active ones, may be based on the structure and properties of already known ligands (ligand-based virtual screening) or on the known (or predicted) structure of the target protein (structure-based virtual screening).
The article shows examples of the application of various tools based on the machine learning methods in virtual screening tasks, together with different ways of data representation enabling their use in this process and various factors influencing the classification effectiveness.

Keywords: machine learning, virtual screening, computer-aided drug design

Potrzeba produkcji środków leczniczych istniała od zawsze ‒ już w starożytności próbowano zwalczać choroby za pomocą różnorodnych substancji pochodzenia roślinnego lub zwierzęcego. Odkrywanie nowych leków było jednak oparte w dużej mierze na intuicji i przypadku. Gwałtowny wzrost wiedzy odnośnie funkcjonowania ludzkiego organizmu, a także szybki rozwój technologii sprawiły, że proces ten uległ znacznej przemianie [1] – zarówno koncerny farmaceutyczne jak i jednostki naukowe zaczęły opracowywać różne strategie poszukiwania substancji biologicznie czynnych.

Nieustanny rozwój komputerów, ich mocy obliczeniowej i możliwości graficznych, jak również specjalistycznego oprogramowania sprawił, że stały się one jednym z nieodłącznych elementów poszukiwania nowych farmaceutyków [2,3]. Różnorodne techniki obliczeniowe wykorzystywano początkowo do optymalizacji struktur chemicznych w analizie QSAR (ang. quantitative structure–activity relationship) [4], której celem jest ilościowe powiązanie własności strukturalnych molekuł z ich aktywnością biologiczną. Obecnie, szereg narzędzi jest stosowanych do poszukiwania nowych substancji aktywnych m.in. w procedurze wirtualnego skriningu. Jego idea jest związana z automatycznym filtrowaniem bibliotek związków chemicznych w celu wskazania struktur o potencjalnej aktywności wobec danego celu biologicznego. Techniki wykorzystywane w tym procesie można podzielić na takie, które bazują tylko i wyłącznie na budowie i właściwościach znanych ligandów (tzw. podejście ligand-based) oraz na te, dla których punktem wyjścia jest znana (lub przewidziana) struktura przestrzenna receptora białkowego (tzw. podejście structure-based) [5]. Do pierwszej grupy metod można zaliczyć m.in. przeszukiwanie bibliotek w oparciu o modele farmakoforowe (reprezentujących cechy cząsteczek, które są istotne dla ich wiązania z białkiem) czy o stopień podobieństwa do znanych związków o potwierdzonej aktywności (ang. similarity search) [6]. Z kolei głównym zadaniem w metodologii structure-based jest dokowanie potencjalnie aktywnych ligandów do miejsca wiążącego receptora. Pozwala ona na znalezienie położenia i konformacji związku w miejscu wiążącym, a także na ocenę jego potencjału na podstawie sposobu dopasowania (automatycznie – przy wykorzystaniu różnorodnych funkcji oceniających i/lub poprzez ewaluację wizualną) [7].

Opisana procedura wirtualnego przesiewania umożliwia ocenę bardzo dużej ilości związków w stosunkowo krótkim czasie i dzięki temu stanowi ona doskonałe uzupełnienie dla wysokowydajnego badania przesiewowego (ang. high-throughput screening), w którym są przeprowadzane rzeczywiste eksperymenty laboratoryjne [8].

Reprezentacja danych
Aby różnorodne techniki obliczeniowe mogły zostać wykorzystane w procesie poszukiwania nowych substancji czynnych, konieczne jest znalezienie odpowiedniego sposobu opisu struktury i właściwości związków. Funkcję tę spełniają deskryptory molekularne przypisujące różnym analizowanym cechom cząsteczek wartości numeryczne [9]. Spośród wielu możliwych sposobów ich klasyfikacji można wyróżnić m.in. podział oparty o właściwości, które są przez nie odzwierciedlane, który wyodrębnia: deskryptory konstytucyjne – obliczane na podstawie wzoru cząsteczkowego (jak masa molowa czy liczba atomów), deskryptory topologiczne – generowane na podstawie grafów molekularnych obrazujących połączenia pomiędzy poszczególnymi atomami, deskryptory opisujące wielkość i kształt cząsteczki (geometryczne), bazujące na znajomości położenia atomów w przestrzeni, deskryptory charakteryzujące rozkład ładunku w cząsteczce (elektrostatyczne) i deskryptory kwantowo-mechaniczne – obliczane metodami półempirycznymi lub ab initio (np. ciepło tworzenia czy energie orbitali molekularnych) [10].
Bardziej złożoną odmianą deskryptorów są fingerprinty. Przyjmują one postać ciągu bitowego kodującego strukturę i/lub właściwości cząsteczek [9]. Również w ich przypadku, możliwe jest wyodrębnienie wielu rodzajów fingerprintów: substrukturalnych [11], farmakoforowych [12], topologicznych [13] czy też kodujących własności fizykochemiczne [14]. Podział ten nie jest jednak ścisły i istnieje również wiele reprezentacji łączących w sobie cechy kilku z wcześniej wymienionych grup. Bardzo dużą popularnością wśród cheminformatyków cieszą się fingerprinty substrukturalne. W tym sposobie reprezentacji cząsteczek, każda pozycja jest związana z obecnością lub brakiem w analizowanej molekule określonej podstruktury (np. grupy karbonylowej, fenylowej, sulfonowej, itd.) – w przypadku gdy pojawia się ona w rozpatrywanej strukturze, dany bit przyjmuje wartość 1, w przeciwnym wypadku, przypisywana jest mu wartość 0 (Rysunek 1) [9].

Rysunek 1. Schemat powstawania fingerprintu substrukturalnego

Z uwagi na stosunkowo niewielki koszt obliczeniowy związany z generowaniem fingerprintów, a także na względnie prosty sposób przeprowadzania porównań pomiędzy poszczególnymi ciągami bitowymi, są one bardzo często wykorzystywane w przeszukiwaniu baz związków w podejściu similarity search. Technika ta polega na ewaluacji molekuł w oparciu o stopień podobieństwa testowanych struktur do znanych ligandów o potwierdzonej aktywności. Reprezentacja w postaci ciągu zero-jedynkowego pozwala na zdefiniowanie stosunkowo prostych w interpretacji współczynników określających wspomniane podobieństwo. Jedną z najbardziej popularnych metryk tego typu jest współczynnik Tanimoto (1) [15]:

(1)
w którym a i b oznaczają liczbę bitów równych 1 w fingerprincie odpowiadającym odpowiednio pierwszej i drugiej molekule, natomiast c jest liczbą bitów jednocześnie równych 1 na danej pozycji w obydwu porównywanych ciągach zero-jedynkowych. Im wyższa wartość omawianego współczynnika, tym większe podobieństwo pomiędzy dwiema cząsteczkami.
Różnorodne metryki podobieństwa nie są jedynymi narzędziami wykorzystywanymi w procedurze similarity search. Związki chemiczne o potencjalnej aktywności biologicznej mogą być w tym podejściu identyfikowane również dzięki wykorzystaniu metod uczenia maszynowego.

Uczenie maszynowe

Uczenie maszynowe jest interdyscyplinarnym, dynamicznie rozwijającym się działem sztucznej inteligencji. Pomimo mnogości zastosowań algorytmów tego typu, zadania którymi się zajmuje można podzielić na dwa podstawowe rodzaje: klasyfikacja i regresja [16,17]. W problemach chemoinformatycznych, pierwszy typ zagadnień jest związany z podjęciem decyzji odnośnie potencjalnej aktywności analizowanego związku, natomiast problemy regresyjne dotyczą przewidywania wartości numerycznych rozpatrywanego parametru, np. aktywności czy własności fizykochemicznych (podobnie jak w analizie QSAR). Istnieje wiele różnych algorytmów uczenia maszynowego, jednak większość z nich charakteryzuje się podobnym sposobem działania (Rysunek 2). Dowolnemu algorytmowi uczenia maszynowego dostarczany jest zestaw związków aktywnych i zestaw związków nieaktywnych (w przypadku zadań klasyfikacyjnych) lub zbiór struktur o potwierdzonej eksperymentalnie wartości rozpatrywanego parametru (w problemach regresyjnych) – jest to tzw. zbiór treningowy. Zadaniem metody, odpowiednio klasyfikacyjnej bądź regresyjnej, jest znalezienie zależności pomiędzy poszczególnymi cechami przykładów ze zbioru uczącego, zastosowaniem ich do konstrukcji modelu predykcyjnego, a następnie wykorzystaniem go do przypisania nowych struktur do odpowiednich klas lub do przewidzenia wartości numerycznej analizowanego parametru.

Rysunek 2. Przebieg procesu klasyfikacji/regresji z wykorzystaniem metod uczenia maszynowego.

 

Redukcja wymiarowości

Ilość danych dostarczanych algorytmom uczenia maszynowego jest często bardzo duża. Może to wynikać zarówno ze sporej ilości przykładów treningowych, jak również z liczby cech opisujących poszczególne elementy zbioru uczącego (wyrażonej np. przez znaczną długość fingerprintu). Stąd też istnieje konieczność zmniejszania liczby przykładów w zbiorze treningowym (wybranie tylko tych, które mogą być istotne dla prawidłowego przebiegu procesu klasyfikacji), bądź też usuwania tych cech, które nie przyczyniają się do poprawy efektywności procesu klasyfikacji (ogólnie określane jako redukcja wymiarowości).
Jednym z zabiegów stosowanych w tego typu zagadnieniach jest klasteryzacja. Jest ona związana z podziałem zbioru obiektów na grupy, w ten sposób, aby zapewnić ich maksymalne zróżnicowanie pomiędzy sobą, przy jednoczesnym zachowaniu jednorodności wewnątrz nich (elementy w obrębie grupy powinny być do siebie podobne) [18]. Do najbardziej popularnych metod klasteryzacji zalicza się klasteryzację hierarchiczną. Jej cechą charakterystyczną jest przedstawianie rezultatów procesu grupowania w postaci dendrogramu, przy czym ostateczny skład poszczególnych klastrów jest determinowany przez położenie linii odcinającej (Rysunek 3). Redukcja wymiarowości danych wynika z możliwości zastępowania grup przez odpowiadające im centroidy (najbardziej reprezentatywne obiekty danej grupy) [19, 20].



Rysunek 3. Wynik klasteryzacji hierarchicznej – dendrogram.

Algorytmy uczenia maszynowego

Rosnąca popularność metod uczenia maszynowego jest związana zarówno z powstawaniem nowych i udoskonalaniem istniejących algorytmów, jak i z coraz szerszym obszarem ich zastosowań. Wśród licznych grup klasyfikatorów powszechnie stosowanych w zagadnieniach związanych z eksploracją danych, można wyróżnić m. in. drzewa decyzyjne, klasyfikatory regułowe, metody oparte o twierdzenie Bayesa czy tzw. maszyny wektorów nośnych. Pierwsza grupa metod bazuje na graficznej reprezentacji procesu decyzyjnego towarzyszącego przypisywaniu poszczególnych przykładów do określonej klasy (Rysunek 4). Ich najprostszy podział wyróżnia drzewa binarne (z każdego węzła wychodzą maksymalnie dwie gałęzie) i drzewa niebinarne (w danym węźle mogą mieć źródło więcej niż dwie gałęzie) [21,22].





Rysunek 4. Przykład binarnego drzewa decyzyjnego.
Z kolei maszyna wektorów nośnych jest klasyfikatorem funkcyjnym, którego zadaniem jest znalezienie hiperpłaszczyzny, rozdzielającej przykłady należące do dwóch klas z maksymalnym marginesem (Rysunek 5) [23].


Rysunek 5. Poszukiwanie hiperpłaszczyzny u rozdzielającej z maksymalnym marginesem m przykłady należące do dwóch klas przez maszynę wektorów nośnych.


Istnieje również grupa algorytmów klasyfikacyjnych, działających w odmienny sposób do schematu przedstawionego na Rysunku 1. Należy do niej m.in. algorytm k-najbliższych sąsiadów. W metodzie tej model predykcyjny nie jest konstruowany, obliczana jest natomiast odległość pomiędzy przykładem poddawanym procesowi klasyfikacji, a każdym przykładem ze zbioru treningowego – rozpatrywana instancja jest przypisywana do tej klasy, do której należy większość z k przykładów uczących, od których jest ona najmniej odległa [24].
Specjalną grupę algorytmów stanowią tzw. meta-klasyfikatory. Zadaniem tych metod jest „uczyć się uczyć” – jeszcze przed zbudowaniem finalnego modelu predykcyjnego, dokonują one oceny jego działania na zbiorze treningowym, po czym wprowadzają takie modyfikacje w powstającym modelu, aby doprowadzić do jak największego wzrostu efektywności procesu klasyfikacji. Przykładem tego rodzaju metod jest procedura „bagging”. W tym podejściu, końcowy predyktor jest złożony z klasyfikatorów trenowanych na podzbiorach oryginalnych danych uczących, utworzonych przez losowanie ze zwracaniem poszczególnych przykładów. Model końcowy jest rezultatem głosowania większościowego [25].
Wielowymiarowa analiza wpływu różnych czynników na efektywność procesu klasyfikacji
Z uwagi na fakt, że skuteczność klasyfikacji przeprowadzanej przy wykorzystaniu metod uczenia maszynowego jest silnie uzależniona od różnych czynników [26-28], oraz z powodu braku szerokiego porównania znaczenia tych czynników w literaturze, przeprowadzono wielowymiarową analizę wpływu różnorodnych parametrów na ten proces [29]. Przetestowano efektywność działania 11 metod uczenia maszynowego, w klasyfikacji znanych ligandów 5 celów białkowych, dla 8 różnych reprezentacji cząsteczek oraz dla zestawów uczących zawierających różną liczbę aktywnych struktur; sprawdzono również wpływ zastosowania uczenia na poziomie meta (Tabela 1), a także przeprowadzono analizy kosztu obliczeniowego związanego z zastosowaniem poszczególnych algorytmów poprzez pomiar czasu potrzebnego na konstrukcję modelu predykcyjnego. Do oceny efektywności procesu klasyfikacji wykorzystano 3 parametry: czułość, precyzję i parametr korelacyjny Matthewsa (MCC) [30].



Tabela 1. Zestawienie eksperymentów przeprowadzonych w celu zbadania wpływu różnych czynników na efektywność przeprowadzania procesu klasyfikacji przez różne metody uczenia maszynowego.


Pomimo znacznej zmienności ich wartości dla poszczególnych eksperymentów, wykazano istnienie ogólnych zależności, pomocnych podczas planowania eksperymentów skriningowych, opartych o wykorzystanie metod uczenia maszynowego:
• najlepsze wyniki (wartości parametrów oceniających powyżej 0,9) uzyskano dla kombinacji KlekFP z metodami SMO, Ibk lub Lasem losowym, wspomaganymi zastosowaniem uczenia na poziomie meta (MultiBoostAB, Decorate, FilteredClassifier, Bagging),
• szybki proces klasyfikacji, pozwalający na identyfikację jak największej liczby aktywnych struktur (przy zaniedbaniu ilości przykładów fałszywie zaklasyfikowanych jako pozytywne), zapewniał algorytm Hyperpipes,
• większa ilość związków aktywnych w zbiorze uczącym przyczyniała się do uzyskiwania wyższych wartości parametrów oceniających,
• zastosowanie uczenia na poziomie meta przyczyniało się do poprawy uzyskiwanych rezultatów,
• w warunkach wirtualnego skriningu najlepsze wyniki uzyskano dla metody SMO lub Las losowy,
• fingerprinty EStateFP i SubFP nie okazały efektywnymi reprezentacjami cząsteczek do doświadczeń z zastosowaniem algorytmów uczenia maszynowego (przy ich wykorzystaniu uzyskiwano najniższe wartości parametrów oceniających.

Podsumowanie
Rosnąca moc obliczeniowa komputerów pozwala na wprowadzanie ciągle nowych narzędzi wspierających proces poszukiwania nowych substancji wykazujących aktywność biologiczną. Wśród licznych technik wspomagających te zadania, znajdują się również metody sztucznej inteligencji, w tym uczenie maszynowe. Pozwalają one nie tylko na wskazywanie potencjalnie aktywnych struktur w oparciu o znane ligandy danego celu biologicznego, lecz również na przeprowadzanie różnorodnych procedur związanych z przygotowaniem danych, jak np. filtrowanie atrybutów czy klasteryzacja. Pomimo sporej skuteczności metod uczenia maszynowego w przeszukiwaniu baz związków pod kątem potencjalnie aktywnych struktur, efektywność ich działania jest stosunkowo silnie uzależniona od warunków prowadzenia eksperymentu. Dlatego też istnieje konieczność optymalizacji szeregu parametrów, począwszy od konstrukcji odpowiednich zbiorów uczących, poprzez wybór reprezentacji cząsteczek aż do zastosowania właściwego dla danego problemu algorytmu.

Bibliografia:
[1] C. Tsinopoulos, I. Mccarthy: An Evolutionary Classification of the Strategies for Drug Discovery, Manufacturing Complexity Network Conference, Cambridge, 2002, 373-385.
[2] V. S. Rao, K. Srinivas: Modern drug discovery process: An in silico approach, Journal of Bioinformatics and Sequence Analysis, vol. 2(5), 2011, 89-94.
[3] D. G. Trist: Scientific process, pharmacology and drug discovery, Current Opinion in Pharmacology, vol. 11(5), 2011, 528-533.
[4] J. Burton, I. Ijjaali, O. Barberan, F. Petitet, D. P. Vaercauteren, A. Michel: Recursive Partitioning for the Prediction of Cytochromes P450 2d6 and 1a2 Inhibition: Importance of the Quality of the Dataset, Journal of Medicinal Chemistry, vol. 49(21), 2006, 6231-6240.
[5] Y. Fukunishi: Structure-based drug screening and ligand-based drug screening with machine learning, Combinatorial Chemistry & High Throughput Screening, vol. 12(4), 2009, 397-408.
[6] P. Willett, J. M. Barnard, G. M. Downs: Chemical Similarity Searching, Journal of Chemical Information and Computer Sciences, vol. 38(6), 1998, 983-996.
[7] A. Breda, L. A. Basso, D. S. Santos, W. F. de Azevedo Jr.: Virtual Screening of Drugs: Score Functions, Docking, and Drug Design, Current Computer - Aided Drug Design, vol. 4(4), 2008, 265-272.
[8] O. A. Raevsky: Molecular structure descriptors in the computer-aided design of biologically active compound, Russian Chemical Reviews, vol. 68 (6), 1999, 505-524.
[9] B. Nisius, J. Bajorath: Molecular fingerprint recombination: generating hybrid fingerprints for similarity searching from different fingerprint types, ChemMedChem, vol. 4(11), 2009, 1859-1863.
[10] K. Tämm: QSPR Modeling of Some Properties of Organic Compounds, Rozprawa doktorska, Uniwersytet w Tartu, Tartu, 2006.

[11] J. M. Barnard, G. M. Downs: Chemical Fragment Generation and Clustering Software, Journal of Chemical Information and Modeling, vol. 37(1), 1997, 141-142.
[12] E. K. Bradley, P. Beroza, J. Penzotti, P. D. Grootenhuis, D. C. Spellmeyer, J. L. Miller: A rapid computational method for lead evolution: description and application to alpha(1)-adrenergic antagonists, Journal of Medicinal Chemistry, vol. 43(14), 2000, 2770-2774.
[13] J. Hert, P. Willet, D. J. Wilton, P. Acklin, K. Azzaoui, E. Jacoby, A. Schuffenhauer: Comparison of topological descriptors for similarity-based virtual screening using multiple bioactive reference structures, Organic & Biomolecular Chemistry, vol. 2(22), 2004, 3256-3266.
[14] F. L. Stahura, J. Bajorath: Partitioning methods for the identification of active molecules, Current Medicinal Chemistry, vol. 10 (8), 2003, 707-715.
[15] A. Bender, R. C. Glen: Molecular similarity: a key technique in molecular informatics, Organic & Biomolecular Chemistry, vol. 2(22), 2004, 3204-3218.
[16] J. L. Melville, E. K. Burke, J. D. Hirst: Machine learning in virtual screening: Combinatorial Chemistry & High Throughput Screening, vol. 12(4), 2009, 332-343.
[17] S. B. Kotsiantis: Supervised Machine Learning : A Review of Classification Techniques, Informatica, vol. 31(3), 2007, 249-268.
[18] A. K. Jain, M. N. Murty, P. J. Flynn: Data Clustering : A Review, ACM Computer Surveys, vol. 31(3), 2000, 264-322.
[19] G. Nowak, R. Tibshirani: Complemementary hierachical clustering, Biostatistics, vol. 9(3), 2008, 467-483.
[20] H. G. Wilson, B. Boots, A. A. Millward: A Comparison of Hierarchical and Partitional Clustering Techniques for Multispectral Image Classification, Proceedings of IEEE International Geoscience and Remote Sensing Symposium, Toronto, 2002, 1624-1626.
[21] R. Kohavi, R. Quinlan: Data mining tasks and methods: Classification: Decision-Tree Discovery, Handbook of data mining and knowledge discovery; Klösgen, W.; Żytkow, J.M. (red.); Oxford University Press, New York, 2002, 267–276.
[22] T. S. Korting: C4.5 algorithm and Multivariate Decision Tress, Image Processing Division, National Institute for Space Research–INPE Sao Jose dos Campos–SP, Brazil. http://www.dpi.inpe.br/~tkorting/projects/c45/material.pdf.
[23] J. C. Plat: Sequential Minimal Optimization : A Fast Algorithm for Training Support Vector Machines, Raport techniczny MSR-TR-98-14, Miscrosoft Research, 1998, 1–21.
[24] X. H. Ma, J. Jia, F. Zhu, Y. Xue, Z. R. Li, Y. Z. Chen: Comparative analysis of machine learning methods in ligand-based virtual screening of large compound libraries, Combinatorial Chemistry & High Throughput Screening, vol. 12(4), 2009, 344-357.
[25] I. G. Webb: MultiBoosting: A Technique for Combining Boosting and Wagging, Machine Learning, vol. 40(2), 2000, 159-196.
[26] D. Plewczynski: Brainstorming: weighted voting prediction of inhibitors for protein targets, Journal of Molecular Modeling, vol. 17(9), 2011, 2133-2141.
[27] D. Plewczynski, M. von Grotthuss, S. Spieser, L. Rychlewski, L. S. Wyrwicz, U. Koch: Target specific compound identification using a support vector machine, Combinatorial Chemistry & High Throughput Screening, vol. 10(3), 2007, 189-196.
[28] E. J. Gardiner, V. J. Gillet, M. Haranczyk, J. Hert, J. D. Holliday, N. Malim, Y. Patel, P. Willet: Turbo Similarity Searching: Effect of Fingerprint and Dataset on Virtual-Screening Performance, Analysis, vol. 2(2), 2009, 103-114.
[29] S. Smusz, R. Kurczab, A. Bojarski: Turning mistakes into positives - an application of meta-learning strategy in virtual screening tasks, the 14th Frühjahrssymposium, Rostock, 2012, 215.
[30] C. Y. Liew, X. H. Ma, C. W. Yap: Consensus model for identification of novel PI3K inhibitors in large chemical library, Journal of Computer-Aided Molecular Design, vol. 24(2), 2010, 131-141.

Komentarze obsługiwane przez CComment