Ugrás a tartalomhoz

Deep learning

Ellenőrzött
A Wikipédiából, a szabad enciklopédiából

A Deep learning, magyarul: mélytanulás, a gépi tanulás egy olyan részhalmaza, amely a neurális hálózatok felhasználására összpontosít olyan feladatok elvégzésére, mint az osztályozás, a regresszió és a reprezentációs tanulás. A terület a biológiai idegtudományból merít ihletet, és középpontjában a mesterséges neuronok rétegekbe való halmozása és „betanítása” áll, hogy adatokat dolgozzanak fel. A „mély” jelző arra utal, hogy a hálózatban több (háromtól több százig vagy több ezerig terjedő) réteget használnak. Az alkalmazott módszerek lehetnek felügyelt, félig felügyelt vagy nem felügyelt módszerek.[1]

Néhány gyakori mély tanulási hálózati architektúra a teljesen összekapcsolt hálózatok, a mély hit-hálózatok, a rekurrens neurális hálózatok, a konvolúciós neurális hálózatok, a generatív adverzális hálózatok, a transzformátorok és a neurális sugárzási mezők. Ezeket az architektúrákat olyan területeken alkalmazták, mint a számítógépes látás, beszédfelismerés, természetes nyelvfeldolgozás, gépi fordítás, bioinformatika, gyógyszertervezés, orvosi képelemzés, klímatudomány, anyagvizsgálat és társasjátékprogramok, ahol az emberi szakértői teljesítményhez hasonló, sőt egyes esetekben azt felülmúló eredményeket produkáltak.[2][3][4]

A neurális hálózatok korai formáit a biológiai rendszerek, különösen az emberi agy információfeldolgozó és elosztott kommunikációs csomópontjai ihlették. A jelenlegi neurális hálózatoknak azonban nem célja az élőlények agyműködésének modellezése, és e célból általában alacsony minőségű modelleknek tekintik őket.[5]

Áttekintés

[szerkesztés]

A legtöbb modern mélytanulási modell többrétegű neurális hálózatokon, például konvolúciós neurális hálózatokon és transzformátorokon alapul, bár tartalmazhatnak kijelentő formulákat vagy rétegenként szervezett látens változókat is a mély generatív modellekben, mint például a mély hiedelemhálózatok és a mély Boltzmann-gépek csomópontjai.[6]

Alapvetően a mélytanulás a gépi tanulási algoritmusok olyan osztályára utal, amelyben a bemeneti adatok fokozatosan absztraktabb és összetettebb reprezentációvá történő átalakítására réteghierarchiát használnak. Például egy képfelismerő modellben a nyers bemenet lehet egy kép (pixelek tenzoraként reprezentálva). Az első reprezentációs réteg megpróbálhatja azonosítani az alapvető alakzatokat, például vonalakat és köröket, a második réteg összeállíthatja és kódolhatja az élek elrendezését, a harmadik réteg kódolhatja az orrot és a szemeket, a negyedik réteg pedig felismerheti, hogy a kép egy arcot tartalmaz.

Fontos, hogy egy mély tanulási folyamat képes önállóan megtanulni, hogy mely jellemzőket melyik szinten kell optimálisan elhelyezni. A mélytanulást megelőzően a gépi tanulási technikák gyakran kézzel készített jellemzőmérnökséget igényeltek, hogy az adatokat az osztályozó algoritmus számára megfelelőbb reprezentációvá alakítsák át. A mélytanulási megközelítésben a jellemzőket nem kézzel alakítják ki, és a modell automatikusan felfedezi a hasznos jellemzőreprezentációkat az adatokból. Ez nem szünteti meg a kézi hangolás szükségességét; például a rétegek változó száma és a rétegméretek különböző absztrakciós fokokat biztosíthatnak.[1][7]

A „mély” szó a „deep learning”-ben a rétegek számára utal, amelyeken keresztül az adatokat átalakítják. Pontosabban a mélytanuló rendszerek jelentős kredit hozzárendelési útvonal (CAP) mélységgel rendelkeznek. A CAP a bemenetről a kimenetre történő transzformációk láncolata. A CAP-ok a bemenet és a kimenet közötti potenciálisan oksági kapcsolatokat írják le. Egy előrecsatolt neurális hálózat esetében a CAP-ok mélysége a hálózat mélysége, és a rejtett rétegek száma plusz egy (mivel a kimeneti réteg is paraméterezett). A rekurrens neurális hálózatok esetében, amelyekben egy jel többször is áthaladhat egy rétegen, a CAP mélysége potenciálisan korlátlan.[8] Nincs általánosan elfogadott mélységi küszöbérték, amely elválasztja a sekély tanulást a mély tanulástól, de a legtöbb kutató egyetért abban, hogy a mély tanulás kettőnél nagyobb CAP-mélységgel jár. A kettes mélységű CAP bizonyítottan univerzális approximátor abban az értelemben, hogy bármilyen függvényt képes utánozni.[9] Ezen túlmenően a több réteg nem növeli a hálózat függvényközelítő képességét. A mély modellek (CAP > kettő) jobb jellemzők kinyerésére képesek, mint a sekély modellek, ezért az extra rétegek segítenek a jellemzők hatékony megtanulásában.

A mélytanulási architektúrák mohó rétegenkénti módszerrel építhetők fel.[10] A mélytanulás segít ezen absztrakciók szétválasztásában és annak kiválasztásában, hogy mely jellemzők javítják a teljesítményt.[7]

A mélytanulási algoritmusok alkalmazhatók felügyelet nélküli tanulási feladatokra. Ez azért fontos előny, mert a címkézetlen adatok nagyobb mennyiségben állnak rendelkezésre, mint a címkézett adatok. A felügyelet nélküli módon képezhető mély struktúrák példái a mély hiedelemhálózatok.[7][11]

A mélytanulás kifejezést Rina Dechter vezette be a gépi tanulás közösségébe 1986-ban,[12] a mesterséges neurális hálózatokba pedig Igor Aizenberg és munkatársai 2000-ben, a Boolean-küszöbneuronokkal összefüggésben,[13][14] bár megjelenésének története ennél nyilvánvalóan bonyolultabb.[15]

Értelmezések

[szerkesztés]

A mély neurális hálózatokat általában az univerzális közelítési tétel[16][17][18][19][20] vagy a valószínűségi következtetés szempontjából értelmezik.[7][8][21][22][23]

A klasszikus univerzális approximációs tétel arra vonatkozik, hogy az egyetlen véges méretű rejtett réteggel rendelkező előrecsatolt neurális hálózatok képesek-e folytonos függvények közelítésére.[16][17][18][19] Az első bizonyítást 1989-ben George Cybenko publikálta szigmoid aktiválási függvényekre,[16] majd 1991-ben Kurt Hornik általánosította többrétegű feed-forward architektúrákra.[17] A legújabb munkák azt is kimutatták, hogy az univerzális approximáció nem korlátos aktiválási függvényekre is érvényes, mint például Kunihiko Fukushima egyenesített lineáris egységére.[24][25]

A mély neurális hálózatokra vonatkozó univerzális közelítési tétel a korlátos szélességű, de a mélység növekedését megengedő hálózatok kapacitására vonatkozik. Lu és társai bebizonyították, hogy ha egy ReLU aktiválású mély neurális hálózat szélessége szigorúan nagyobb, mint a bemeneti dimenzió, akkor a hálózat bármely Lebesgue-féle integrálható függvényt képes közelíteni; ha a szélesség kisebb vagy egyenlő a bemeneti dimenzióval, akkor a mély neurális hálózat nem univerzális közelítő.

A valószínűségi értelmezés[23] a gépi tanulás területéről származik. Jellemzői a következtetés,[6][7][8][11][22][23] valamint a képzés és a tesztelés optimalizálási fogalmai, amelyek az illesztéshez, illetve az általánosításhoz kapcsolódnak. Pontosabban, a valószínűségi értelmezés az aktiválási nemlinearitást kumulatív eloszlásfüggvénynek tekinti.[23] A valószínűségi értelmezés vezetett a kiesés mint regularizátor bevezetéséhez a neurális hálózatokban. A valószínűségi értelmezést többek között Hopfield, Widrow és Narendra kutatók vezették be, és olyan felmérésekben népszerűsítették, mint például Bishop.[26]

Jegyzetek

[szerkesztés]
  1. a b (2015) „Deep Learning”. Nature 521 (7553), 436–444. o. DOI:10.1038/nature14539. PMID 26017442. 
  2. Multi-column deep neural networks for image classification, 2012 IEEE Conference on Computer Vision and Pattern Recognition, 3642–3649. o.. DOI: 10.1109/cvpr.2012.6248110 (2012). ISBN 978-1-4673-1228-8 
  3. (2012) „ImageNet Classification with Deep Convolutional Neural Networks”. NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada. (Hozzáférés: 2017. május 24.) 
  4. Google's AlphaGo AI wins three-match series against the world's best Go player. TechCrunch , 2017. május 25. [2018. június 17-i dátummal az eredetiből archiválva]. (Hozzáférés: 2018. június 17.)
  5. Study urges caution when comparing neural networks to the brain (angol nyelven). MIT News | Massachusetts Institute of Technology , 2022. november 2. (Hozzáférés: 2023. december 6.)
  6. a b Bengio, Yoshua (2009). „Learning Deep Architectures for AI”. Foundations and Trends in Machine Learning 2 (1), 1–127. o. DOI:10.1561/2200000006. (Hozzáférés: 2015. szeptember 3.) 
  7. a b c d e (2013) „Representation Learning: A Review and New Perspectives”. IEEE Transactions on Pattern Analysis and Machine Intelligence 35 (8), 1798–1828. o. DOI:10.1109/tpami.2013.50. PMID 23787338. 
  8. a b c Schmidhuber, J. (2015). „Deep Learning in Neural Networks: An Overview”. Neural Networks 61, 85–117. o. DOI:10.1016/j.neunet.2014.09.003. PMID 25462637. 
  9. Shigeki, Sugiyama. Human Behavior and Another Kind in Consciousness: Emerging Research and Opportunities: Emerging Research and Opportunities (angol nyelven). IGI Global (2019. április 12.). ISBN 978-1-5225-8218-2 
  10. (2007) „Greedy layer-wise training of deep networks”. Advances in neural information processing systems: 153–160. 
  11. a b (2009) „Deep belief networks”. Scholarpedia 4 (5), 5947. o. DOI:10.4249/scholarpedia.5947. 
  12. Rina Dechter (1986). Learning while searching in constraint-satisfaction problems. University of California, Computer Science Department, Cognitive Systems Laboratory.Online Archiválva 2016. április 19-i dátummal a Wayback Machine-ben.
  13. Multi-Valued and Universal Binary Neurons. Science & Business Media. DOI: 10.1007/978-1-4757-3115-6 (2000. április 15.). ISBN 978-0-7923-7824-2 
  14. Co-evolving recurrent neurons learn deep memory POMDPs. Proc. GECCO, Washington, D. C., pp. 1795–1802, ACM Press, New York, NY, USA, 2005.
  15. Fradkov, Alexander L. (2020. január 1.). „Early History of Machine Learning”. IFAC-PapersOnLine 53 (2), 1385–1390. o. DOI:10.1016/j.ifacol.2020.12.1888. ISSN 2405-8963. 
  16. a b c (1989) „Approximations by superpositions of sigmoidal functions”. Mathematics of Control, Signals, and Systems 2 (4), 303–314. o. DOI:10.1007/bf02551274. 
  17. a b c (1991) „Approximation Capabilities of Multilayer Feedforward Networks”. Neural Networks 4 (2), 251–257. o. DOI:10.1016/0893-6080(91)90009-t. 
  18. a b Haykin, Simon S.. Neural Networks: A Comprehensive Foundation. Prentice Hall (1999). ISBN 978-0-13-273350-2 
  19. a b Hassoun, Mohamad H.. Fundamentals of Artificial Neural Networks. MIT Press, 48. o. (1995). ISBN 978-0-262-08239-6 
  20. Lu, Z., Pu, H., Wang, F., Hu, Z., & Wang, L. (2017). The Expressive Power of Neural Networks: A View from the Width Archiválva 2019. február 13-i dátummal a Wayback Machine-ben.. Neural Information Processing Systems, 6231-6239.
  21. (2017) „Efficient probabilistic inference in generic neural networks trained with non-probabilistic feedback”. Nature Communications 8 (1), 138. o. DOI:10.1038/s41467-017-00181-8. PMID 28743932. PMC 5527101. 
  22. a b (2014) „Deep Learning: Methods and Applications”. Foundations and Trends in Signal Processing 7 (3–4), 1–199. o. DOI:10.1561/2000000039. (Hozzáférés: 2014. október 18.) 
  23. a b c d Murphy, Kevin P.. Machine Learning: A Probabilistic Perspective. MIT Press (2012. augusztus 24.). ISBN 978-0-262-01802-9 
  24. (1969) „Visual feature extraction by a multilayered network of analog threshold elements”. IEEE Transactions on Systems Science and Cybernetics 5 (4), 322–333. o. DOI:10.1109/TSSC.1969.300225. 
  25. (2017) „Neural network with unbounded activation functions is universal approximator”. Applied and Computational Harmonic Analysis 43 (2), 233–268. o. DOI:10.1016/j.acha.2015.12.005. 
  26. Bishop, Christopher M.. Pattern Recognition and Machine Learning. Springer (2006). ISBN 978-0-387-31073-2 

Irodalom

[szerkesztés]