Deep learning
![]() |
Ez a szócikk vagy szakasz lektorálásra, tartalmi javításokra szorul. |
A Deep learning, magyarul: mélytanulás, a gépi tanulás egy olyan részhalmaza, amely a neurális hálózatok felhasználására összpontosít olyan feladatok elvégzésére, mint az osztályozás, a regresszió és a reprezentációs tanulás. A terület a biológiai idegtudományból merít ihletet, és középpontjában a mesterséges neuronok rétegekbe való halmozása és „betanítása” áll, hogy adatokat dolgozzanak fel. A „mély” jelző arra utal, hogy a hálózatban több (háromtól több százig vagy több ezerig terjedő) réteget használnak. Az alkalmazott módszerek lehetnek felügyelt, félig felügyelt vagy nem felügyelt módszerek.[1]
Néhány gyakori mély tanulási hálózati architektúra a teljesen összekapcsolt hálózatok, a mély hit-hálózatok, a rekurrens neurális hálózatok, a konvolúciós neurális hálózatok, a generatív adverzális hálózatok, a transzformátorok és a neurális sugárzási mezők. Ezeket az architektúrákat olyan területeken alkalmazták, mint a számítógépes látás, beszédfelismerés, természetes nyelvfeldolgozás, gépi fordítás, bioinformatika, gyógyszertervezés, orvosi képelemzés, klímatudomány, anyagvizsgálat és társasjátékprogramok, ahol az emberi szakértői teljesítményhez hasonló, sőt egyes esetekben azt felülmúló eredményeket produkáltak.[2][3][4]
A neurális hálózatok korai formáit a biológiai rendszerek, különösen az emberi agy információfeldolgozó és elosztott kommunikációs csomópontjai ihlették. A jelenlegi neurális hálózatoknak azonban nem célja az élőlények agyműködésének modellezése, és e célból általában alacsony minőségű modelleknek tekintik őket.[5]
Áttekintés
[szerkesztés]A legtöbb modern mélytanulási modell többrétegű neurális hálózatokon, például konvolúciós neurális hálózatokon és transzformátorokon alapul, bár tartalmazhatnak kijelentő formulákat vagy rétegenként szervezett látens változókat is a mély generatív modellekben, mint például a mély hiedelemhálózatok és a mély Boltzmann-gépek csomópontjai.[6]
Alapvetően a mélytanulás a gépi tanulási algoritmusok olyan osztályára utal, amelyben a bemeneti adatok fokozatosan absztraktabb és összetettebb reprezentációvá történő átalakítására réteghierarchiát használnak. Például egy képfelismerő modellben a nyers bemenet lehet egy kép (pixelek tenzoraként reprezentálva). Az első reprezentációs réteg megpróbálhatja azonosítani az alapvető alakzatokat, például vonalakat és köröket, a második réteg összeállíthatja és kódolhatja az élek elrendezését, a harmadik réteg kódolhatja az orrot és a szemeket, a negyedik réteg pedig felismerheti, hogy a kép egy arcot tartalmaz.
Fontos, hogy egy mély tanulási folyamat képes önállóan megtanulni, hogy mely jellemzőket melyik szinten kell optimálisan elhelyezni. A mélytanulást megelőzően a gépi tanulási technikák gyakran kézzel készített jellemzőmérnökséget igényeltek, hogy az adatokat az osztályozó algoritmus számára megfelelőbb reprezentációvá alakítsák át. A mélytanulási megközelítésben a jellemzőket nem kézzel alakítják ki, és a modell automatikusan felfedezi a hasznos jellemzőreprezentációkat az adatokból. Ez nem szünteti meg a kézi hangolás szükségességét; például a rétegek változó száma és a rétegméretek különböző absztrakciós fokokat biztosíthatnak.[1][7]
A „mély” szó a „deep learning”-ben a rétegek számára utal, amelyeken keresztül az adatokat átalakítják. Pontosabban a mélytanuló rendszerek jelentős kredit hozzárendelési útvonal (CAP) mélységgel rendelkeznek. A CAP a bemenetről a kimenetre történő transzformációk láncolata. A CAP-ok a bemenet és a kimenet közötti potenciálisan oksági kapcsolatokat írják le. Egy előrecsatolt neurális hálózat esetében a CAP-ok mélysége a hálózat mélysége, és a rejtett rétegek száma plusz egy (mivel a kimeneti réteg is paraméterezett). A rekurrens neurális hálózatok esetében, amelyekben egy jel többször is áthaladhat egy rétegen, a CAP mélysége potenciálisan korlátlan.[8] Nincs általánosan elfogadott mélységi küszöbérték, amely elválasztja a sekély tanulást a mély tanulástól, de a legtöbb kutató egyetért abban, hogy a mély tanulás kettőnél nagyobb CAP-mélységgel jár. A kettes mélységű CAP bizonyítottan univerzális approximátor abban az értelemben, hogy bármilyen függvényt képes utánozni.[9] Ezen túlmenően a több réteg nem növeli a hálózat függvényközelítő képességét. A mély modellek (CAP > kettő) jobb jellemzők kinyerésére képesek, mint a sekély modellek, ezért az extra rétegek segítenek a jellemzők hatékony megtanulásában.
A mélytanulási architektúrák mohó rétegenkénti módszerrel építhetők fel.[10] A mélytanulás segít ezen absztrakciók szétválasztásában és annak kiválasztásában, hogy mely jellemzők javítják a teljesítményt.[7]
A mélytanulási algoritmusok alkalmazhatók felügyelet nélküli tanulási feladatokra. Ez azért fontos előny, mert a címkézetlen adatok nagyobb mennyiségben állnak rendelkezésre, mint a címkézett adatok. A felügyelet nélküli módon képezhető mély struktúrák példái a mély hiedelemhálózatok.[7][11]
A mélytanulás kifejezést Rina Dechter vezette be a gépi tanulás közösségébe 1986-ban,[12] a mesterséges neurális hálózatokba pedig Igor Aizenberg és munkatársai 2000-ben, a Boolean-küszöbneuronokkal összefüggésben,[13][14] bár megjelenésének története ennél nyilvánvalóan bonyolultabb.[15]
Értelmezések
[szerkesztés]A mély neurális hálózatokat általában az univerzális közelítési tétel[16][17][18][19][20] vagy a valószínűségi következtetés szempontjából értelmezik.[7][8][21][22][23]
A klasszikus univerzális approximációs tétel arra vonatkozik, hogy az egyetlen véges méretű rejtett réteggel rendelkező előrecsatolt neurális hálózatok képesek-e folytonos függvények közelítésére.[16][17][18][19] Az első bizonyítást 1989-ben George Cybenko publikálta szigmoid aktiválási függvényekre,[16] majd 1991-ben Kurt Hornik általánosította többrétegű feed-forward architektúrákra.[17] A legújabb munkák azt is kimutatták, hogy az univerzális approximáció nem korlátos aktiválási függvényekre is érvényes, mint például Kunihiko Fukushima egyenesített lineáris egységére.[24][25]
A mély neurális hálózatokra vonatkozó univerzális közelítési tétel a korlátos szélességű, de a mélység növekedését megengedő hálózatok kapacitására vonatkozik. Lu és társai bebizonyították, hogy ha egy ReLU aktiválású mély neurális hálózat szélessége szigorúan nagyobb, mint a bemeneti dimenzió, akkor a hálózat bármely Lebesgue-féle integrálható függvényt képes közelíteni; ha a szélesség kisebb vagy egyenlő a bemeneti dimenzióval, akkor a mély neurális hálózat nem univerzális közelítő.
A valószínűségi értelmezés[23] a gépi tanulás területéről származik. Jellemzői a következtetés,[6][7][8][11][22][23] valamint a képzés és a tesztelés optimalizálási fogalmai, amelyek az illesztéshez, illetve az általánosításhoz kapcsolódnak. Pontosabban, a valószínűségi értelmezés az aktiválási nemlinearitást kumulatív eloszlásfüggvénynek tekinti.[23] A valószínűségi értelmezés vezetett a kiesés mint regularizátor bevezetéséhez a neurális hálózatokban. A valószínűségi értelmezést többek között Hopfield, Widrow és Narendra kutatók vezették be, és olyan felmérésekben népszerűsítették, mint például Bishop.[26]
Jegyzetek
[szerkesztés]- ↑ a b (2015) „Deep Learning”. Nature 521 (7553), 436–444. o. DOI:10.1038/nature14539. PMID 26017442.
- ↑ Multi-column deep neural networks for image classification, 2012 IEEE Conference on Computer Vision and Pattern Recognition, 3642–3649. o.. DOI: 10.1109/cvpr.2012.6248110 (2012). ISBN 978-1-4673-1228-8
- ↑ (2012) „ImageNet Classification with Deep Convolutional Neural Networks”. NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada. (Hozzáférés: 2017. május 24.)
- ↑ Google's AlphaGo AI wins three-match series against the world's best Go player. TechCrunch , 2017. május 25. [2018. június 17-i dátummal az eredetiből archiválva]. (Hozzáférés: 2018. június 17.)
- ↑ Study urges caution when comparing neural networks to the brain (angol nyelven). MIT News | Massachusetts Institute of Technology , 2022. november 2. (Hozzáférés: 2023. december 6.)
- ↑ a b Bengio, Yoshua (2009). „Learning Deep Architectures for AI”. Foundations and Trends in Machine Learning 2 (1), 1–127. o. DOI:10.1561/2200000006. (Hozzáférés: 2015. szeptember 3.)
- ↑ a b c d e (2013) „Representation Learning: A Review and New Perspectives”. IEEE Transactions on Pattern Analysis and Machine Intelligence 35 (8), 1798–1828. o. DOI:10.1109/tpami.2013.50. PMID 23787338.
- ↑ a b c Schmidhuber, J. (2015). „Deep Learning in Neural Networks: An Overview”. Neural Networks 61, 85–117. o. DOI:10.1016/j.neunet.2014.09.003. PMID 25462637.
- ↑ Shigeki, Sugiyama. Human Behavior and Another Kind in Consciousness: Emerging Research and Opportunities: Emerging Research and Opportunities (angol nyelven). IGI Global (2019. április 12.). ISBN 978-1-5225-8218-2
- ↑ (2007) „Greedy layer-wise training of deep networks”. Advances in neural information processing systems: 153–160.
- ↑ a b (2009) „Deep belief networks”. Scholarpedia 4 (5), 5947. o. DOI:10.4249/scholarpedia.5947.
- ↑ Rina Dechter (1986). Learning while searching in constraint-satisfaction problems. University of California, Computer Science Department, Cognitive Systems Laboratory.Online Archiválva 2016. április 19-i dátummal a Wayback Machine-ben.
- ↑ Multi-Valued and Universal Binary Neurons. Science & Business Media. DOI: 10.1007/978-1-4757-3115-6 (2000. április 15.). ISBN 978-0-7923-7824-2
- ↑ Co-evolving recurrent neurons learn deep memory POMDPs. Proc. GECCO, Washington, D. C., pp. 1795–1802, ACM Press, New York, NY, USA, 2005.
- ↑ Fradkov, Alexander L. (2020. január 1.). „Early History of Machine Learning”. IFAC-PapersOnLine 53 (2), 1385–1390. o. DOI:10.1016/j.ifacol.2020.12.1888. ISSN 2405-8963.
- ↑ a b c (1989) „Approximations by superpositions of sigmoidal functions”. Mathematics of Control, Signals, and Systems 2 (4), 303–314. o. DOI:10.1007/bf02551274.
- ↑ a b c (1991) „Approximation Capabilities of Multilayer Feedforward Networks”. Neural Networks 4 (2), 251–257. o. DOI:10.1016/0893-6080(91)90009-t.
- ↑ a b Haykin, Simon S.. Neural Networks: A Comprehensive Foundation. Prentice Hall (1999). ISBN 978-0-13-273350-2
- ↑ a b Hassoun, Mohamad H.. Fundamentals of Artificial Neural Networks. MIT Press, 48. o. (1995). ISBN 978-0-262-08239-6
- ↑ Lu, Z., Pu, H., Wang, F., Hu, Z., & Wang, L. (2017). The Expressive Power of Neural Networks: A View from the Width Archiválva 2019. február 13-i dátummal a Wayback Machine-ben.. Neural Information Processing Systems, 6231-6239.
- ↑ (2017) „Efficient probabilistic inference in generic neural networks trained with non-probabilistic feedback”. Nature Communications 8 (1), 138. o. DOI:10.1038/s41467-017-00181-8. PMID 28743932. PMC 5527101.
- ↑ a b (2014) „Deep Learning: Methods and Applications”. Foundations and Trends in Signal Processing 7 (3–4), 1–199. o. DOI:10.1561/2000000039. (Hozzáférés: 2014. október 18.)
- ↑ a b c d Murphy, Kevin P.. Machine Learning: A Probabilistic Perspective. MIT Press (2012. augusztus 24.). ISBN 978-0-262-01802-9
- ↑ (1969) „Visual feature extraction by a multilayered network of analog threshold elements”. IEEE Transactions on Systems Science and Cybernetics 5 (4), 322–333. o. DOI:10.1109/TSSC.1969.300225.
- ↑ (2017) „Neural network with unbounded activation functions is universal approximator”. Applied and Computational Harmonic Analysis 43 (2), 233–268. o. DOI:10.1016/j.acha.2015.12.005.
- ↑ Bishop, Christopher M.. Pattern Recognition and Machine Learning. Springer (2006). ISBN 978-0-387-31073-2
Irodalom
[szerkesztés]- Deep learning: foundations and concepts. Springer (2024. április 15.). ISBN 978-3-031-45467-7
- Understanding deep learning. The MIT Press (2023. április 15.). ISBN 9780262048644
- Deep Learning. MIT Press (2016). ISBN 978-0-26203561-3