EITC/AI/ARL అడ్వాన్స్డ్ రీన్ఫోర్స్మెంట్ లెర్నింగ్ అనేది ఆర్టిఫిషియల్ ఇంటెలిజెన్స్లో రీన్ఫోర్స్మెంట్ లెర్నింగ్కు డీప్మైండ్ యొక్క విధానంపై యూరోపియన్ IT సర్టిఫికేషన్ ప్రోగ్రామ్.
EITC/AI/ARL అడ్వాన్స్డ్ రీన్ఫోర్స్మెంట్ లెర్నింగ్ యొక్క పాఠ్యాంశాలు ఈ EITC సర్టిఫికేషన్కు సూచనగా సమగ్ర వీడియో సందేశాత్మక కంటెంట్ను కలిగి ఉన్న కింది నిర్మాణంలో నిర్వహించబడిన DeepMind దృక్కోణం నుండి ఉపబల అభ్యాస పద్ధతులలో సైద్ధాంతిక అంశాలు మరియు ఆచరణాత్మక నైపుణ్యాలపై దృష్టి పెడుతుంది.
ఉపబల అభ్యాసం (ఆర్ఎల్) అనేది యంత్ర అభ్యాసానికి సంబంధించిన ఒక ప్రాంతం, ఇది తెలివిగల ఏజెంట్లు పర్యావరణంలో ఎలా చర్యలు తీసుకోవాలి అనేదానికి సంబంధించినది. పర్యవేక్షించబడిన అభ్యాసం మరియు పర్యవేక్షించబడని అభ్యాసంతో పాటు మూడు ప్రాథమిక యంత్ర అభ్యాస నమూనాలలో ఉపబల అభ్యాసం ఒకటి.
లేబుల్ చేయబడిన ఇన్పుట్/అవుట్పుట్ జతలు సమర్పించాల్సిన అవసరం లేదు మరియు స్పష్టంగా సరిదిద్దడానికి ఉప-ఆప్టిమల్ చర్యలు అవసరం లేదు. బదులుగా అన్వేషణ (నిర్దేశించని భూభాగం) మరియు దోపిడీ (ప్రస్తుత జ్ఞానం) మధ్య సమతుల్యతను కనుగొనడం.
పర్యావరణం సాధారణంగా మార్కోవ్ నిర్ణయ ప్రక్రియ (MDP) రూపంలో చెప్పబడుతుంది, ఎందుకంటే ఈ సందర్భం కోసం అనేక ఉపబల అభ్యాస అల్గోరిథంలు డైనమిక్ ప్రోగ్రామింగ్ పద్ధతులను ఉపయోగిస్తాయి. క్లాసికల్ డైనమిక్ ప్రోగ్రామింగ్ పద్ధతులు మరియు ఉపబల అభ్యాస అల్గోరిథంల మధ్య ఉన్న ప్రధాన వ్యత్యాసం ఏమిటంటే, రెండోది MDP యొక్క ఖచ్చితమైన గణిత నమూనా యొక్క జ్ఞానాన్ని not హించదు మరియు అవి ఖచ్చితమైన MDP లను లక్ష్యంగా చేసుకుంటాయి, అక్కడ ఖచ్చితమైన పద్ధతులు సాధ్యం కాదు.
దాని సాధారణత కారణంగా, ఆట సిద్ధాంతం, నియంత్రణ సిద్ధాంతం, కార్యకలాపాల పరిశోధన, సమాచార సిద్ధాంతం, అనుకరణ-ఆధారిత ఆప్టిమైజేషన్, బహుళ-ఏజెంట్ వ్యవస్థలు, సమూహ మేధస్సు మరియు గణాంకాలు వంటి అనేక విభాగాలలో ఉపబల అభ్యాసం అధ్యయనం చేయబడుతుంది. కార్యకలాపాల పరిశోధన మరియు నియంత్రణ సాహిత్యంలో, ఉపబల అభ్యాసాన్ని సుమారు డైనమిక్ ప్రోగ్రామింగ్ లేదా న్యూరో-డైనమిక్ ప్రోగ్రామింగ్ అంటారు. ఉపబల అభ్యాసంపై ఆసక్తి యొక్క సమస్యలు సరైన నియంత్రణ సిద్ధాంతంలో కూడా అధ్యయనం చేయబడ్డాయి, ఇది ఎక్కువగా సరైన పరిష్కారాల ఉనికి మరియు లక్షణాలతో సంబంధం కలిగి ఉంటుంది మరియు వాటి ఖచ్చితమైన గణన కోసం అల్గోరిథంలు మరియు నేర్చుకోవడం లేదా ఉజ్జాయింపుతో తక్కువగా ఉంటుంది, ముఖ్యంగా లేనప్పుడు పర్యావరణం యొక్క గణిత నమూనా. ఆర్థిక శాస్త్రం మరియు ఆట సిద్ధాంతంలో, సరిహద్దు హేతుబద్ధత క్రింద సమతుల్యత ఎలా తలెత్తుతుందో వివరించడానికి ఉపబల అభ్యాసం ఉపయోగించబడుతుంది.
ప్రాథమిక ఉపబలాలను మార్కోవ్ నిర్ణయ ప్రక్రియ (MDP) గా రూపొందించారు. గణితంలో, మార్కోవ్ డెసిషన్ ప్రాసెస్ (MDP) అనేది వివిక్త-సమయ యాదృచ్ఛిక నియంత్రణ ప్రక్రియ. ఫలితాలు పాక్షికంగా యాదృచ్ఛికంగా మరియు కొంతవరకు నిర్ణయాధికారి నియంత్రణలో ఉన్న పరిస్థితులలో మోడలింగ్ నిర్ణయం తీసుకోవడానికి ఇది గణిత చట్రాన్ని అందిస్తుంది. డైనమిక్ ప్రోగ్రామింగ్ ద్వారా పరిష్కరించబడిన ఆప్టిమైజేషన్ సమస్యలను అధ్యయనం చేయడానికి MDP లు ఉపయోగపడతాయి. MDP లు కనీసం 1950 ల నాటికే పిలువబడ్డాయి. రోనాల్డ్ హోవార్డ్ యొక్క 1960 పుస్తకం, డైనమిక్ ప్రోగ్రామింగ్ మరియు మార్కోవ్ ప్రాసెసెస్ నుండి మార్కోవ్ నిర్ణయ ప్రక్రియలపై పరిశోధన యొక్క ప్రధాన భాగం. రోబోటిక్స్, ఆటోమేటిక్ కంట్రోల్, ఎకనామిక్స్ మరియు తయారీతో సహా అనేక విభాగాలలో వీటిని ఉపయోగిస్తారు. MDP ల పేరు రష్యన్ గణిత శాస్త్రజ్ఞుడు ఆండ్రీ మార్కోవ్ నుండి వచ్చింది, ఎందుకంటే అవి మార్కోవ్ గొలుసుల పొడిగింపు.
ప్రతి సమయ దశలో, ఈ ప్రక్రియ కొన్ని రాష్ట్రాలలో ఉంటుంది, మరియు నిర్ణయాధికారి రాష్ట్రంలో లభించే ఏదైనా చర్యను ఎంచుకోవచ్చు. ఈ ప్రక్రియ తదుపరి సారి స్పందిస్తుంది, యాదృచ్చికంగా కొత్త రాష్ట్రం S లోకి వెళ్లడం ద్వారా, మరియు ఇవ్వడం ద్వారా నిర్ణయాధికారి సంబంధిత రివార్డ్ రా (ఎస్, ఎస్ ').
ప్రక్రియ దాని కొత్త స్థితి S లోకి కదిలే సంభావ్యత ఎంచుకున్న చర్య ద్వారా ప్రభావితమవుతుంది a. ప్రత్యేకంగా, ఇది స్టేట్ ట్రాన్సిషన్ ఫంక్షన్ Pa (S, S ') ద్వారా ఇవ్వబడుతుంది. ఈ విధంగా, తదుపరి రాష్ట్రం S 'ప్రస్తుత స్థితి S పై ఆధారపడి ఉంటుంది మరియు నిర్ణయాధికారి చర్య a. S మరియు a ఇచ్చినట్లయితే, ఇది మునుపటి అన్ని రాష్ట్రాలు మరియు చర్యల నుండి షరతులతో స్వతంత్రంగా ఉంటుంది. మరో మాటలో చెప్పాలంటే, ఒక MDP యొక్క రాష్ట్ర పరివర్తనాలు మార్కోవ్ ఆస్తిని సంతృప్తిపరుస్తాయి.
మార్కోవ్ నిర్ణయ ప్రక్రియలు మార్కోవ్ గొలుసుల పొడిగింపు; వ్యత్యాసం ఏమిటంటే చర్యల కలయిక (ఎంపికను అనుమతించడం) మరియు రివార్డులు (ప్రేరణ ఇవ్వడం). దీనికి విరుద్ధంగా, ప్రతి రాష్ట్రానికి ఒక చర్య మాత్రమే ఉంటే (ఉదా. “వేచి ఉండండి”) మరియు అన్ని బహుమతులు ఒకేలా ఉంటే (ఉదా. “సున్నా”), మార్కోవ్ నిర్ణయ ప్రక్రియ మార్కోవ్ గొలుసుకు తగ్గుతుంది.
ఉపబల అభ్యాస ఏజెంట్ దాని వాతావరణంతో వివిక్త సమయ దశల్లో సంకర్షణ చెందుతుంది. ప్రతిసారీ t, ఏజెంట్ ప్రస్తుత స్థితి S (t) మరియు రివార్డ్ r (t) ను అందుకుంటారు. ఇది అందుబాటులో ఉన్న చర్యల సమితి నుండి ఒక చర్యను (టి) ఎంచుకుంటుంది, అది తరువాత పర్యావరణానికి పంపబడుతుంది. పర్యావరణం కొత్త స్థితికి వెళుతుంది S (t + 1) మరియు పరివర్తనతో సంబంధం ఉన్న రివార్డ్ r (t + 1) నిర్ణయించబడుతుంది. ఉపబల అభ్యాస ఏజెంట్ యొక్క లక్ష్యం policy హించిన సంచిత బహుమతిని పెంచే విధానాన్ని నేర్చుకోవడం.
ఒక MDP సమస్యను రూపొందించడం ఏజెంట్ ప్రస్తుత పర్యావరణ స్థితిని నేరుగా గమనిస్తుందని umes హిస్తుంది. ఈ సందర్భంలో సమస్య పూర్తి పరిశీలనా సామర్థ్యాన్ని కలిగి ఉంటుంది. ఏజెంట్ రాష్ట్రాల ఉపసమితికి మాత్రమే ప్రాప్యత కలిగి ఉంటే, లేదా గమనించిన రాష్ట్రాలు శబ్దం ద్వారా పాడైతే, ఏజెంట్ పాక్షిక పరిశీలనాత్మకతను కలిగి ఉంటారని మరియు అధికారికంగా సమస్యను పాక్షికంగా పరిశీలించదగిన మార్కోవ్ నిర్ణయ ప్రక్రియగా రూపొందించాలి. రెండు సందర్భాల్లో, ఏజెంట్కు అందుబాటులో ఉన్న చర్యల సమితిని పరిమితం చేయవచ్చు. ఉదాహరణకు, ఖాతా బ్యాలెన్స్ యొక్క స్థితి సానుకూలంగా ఉండటానికి పరిమితం చేయవచ్చు; రాష్ట్ర ప్రస్తుత విలువ 3 మరియు రాష్ట్ర పరివర్తన విలువను 4 తగ్గించడానికి ప్రయత్నిస్తే, పరివర్తనం అనుమతించబడదు.
ఏజెంట్ యొక్క పనితీరు అనుకూలంగా పనిచేసే ఏజెంట్తో పోల్చినప్పుడు, పనితీరులో వ్యత్యాసం విచారం యొక్క భావనకు దారితీస్తుంది. సముచితంగా పనిచేయడానికి, ఏజెంట్ దాని చర్యల యొక్క దీర్ఘకాలిక పరిణామాల గురించి (అనగా, భవిష్యత్ ఆదాయాన్ని పెంచుకోండి) గురించి వాదించాలి, అయినప్పటికీ దీనితో సంబంధం ఉన్న తక్షణ బహుమతి ప్రతికూలంగా ఉండవచ్చు.
అందువల్ల, ఉపబల అభ్యాసం ముఖ్యంగా దీర్ఘకాలిక మరియు స్వల్పకాలిక రివార్డ్ ట్రేడ్-ఆఫ్ కలిగి ఉన్న సమస్యలకు బాగా సరిపోతుంది. రోబోట్ కంట్రోల్, ఎలివేటర్ షెడ్యూలింగ్, టెలికమ్యూనికేషన్స్, బ్యాక్గామన్, చెక్కర్స్ మరియు గో (ఆల్ఫాగో) వంటి వివిధ సమస్యలకు ఇది విజయవంతంగా వర్తించబడింది.
రెండు అంశాలు ఉపబల అభ్యాసాన్ని శక్తివంతం చేస్తాయి: పనితీరును ఆప్టిమైజ్ చేయడానికి నమూనాలను ఉపయోగించడం మరియు పెద్ద వాతావరణాలతో వ్యవహరించడానికి ఫంక్షన్ ఉజ్జాయింపును ఉపయోగించడం. ఈ రెండు ముఖ్య భాగాలకు ధన్యవాదాలు, ఉపబల అభ్యాసాన్ని ఈ క్రింది పరిస్థితులలో పెద్ద వాతావరణంలో ఉపయోగించవచ్చు:
- పర్యావరణం యొక్క నమూనా తెలుసు, కానీ విశ్లేషణాత్మక పరిష్కారం అందుబాటులో లేదు.
- పర్యావరణం యొక్క అనుకరణ నమూనా మాత్రమే ఇవ్వబడుతుంది (అనుకరణ-ఆధారిత ఆప్టిమైజేషన్ యొక్క విషయం).
- పర్యావరణం గురించి సమాచారాన్ని సేకరించే ఏకైక మార్గం దానితో సంభాషించడం.
ఈ సమస్యలలో మొదటి రెండు ప్రణాళిక సమస్యలుగా పరిగణించబడతాయి (కొన్ని రకాల మోడల్ అందుబాటులో ఉన్నందున), చివరిది నిజమైన అభ్యాస సమస్యగా పరిగణించబడుతుంది. ఏదేమైనా, ఉపబల అభ్యాసం రెండు ప్రణాళిక సమస్యలను యంత్ర అభ్యాస సమస్యలుగా మారుస్తుంది.
అన్వేషణ వర్సెస్ దోపిడీ ట్రేడ్-ఆఫ్ను బహుళ-సాయుధ బందిపోటు సమస్య ద్వారా మరియు బర్నెటాస్ మరియు కాటేహాకిస్ (1997) లోని పరిమిత రాష్ట్ర అంతరిక్ష MDP ల కోసం బాగా అధ్యయనం చేశారు.
ఉపబల అభ్యాసానికి తెలివైన అన్వేషణ విధానాలు అవసరం; యాదృచ్ఛికంగా చర్యలను ఎంచుకోవడం, అంచనా సంభావ్యత పంపిణీని సూచించకుండా, పేలవమైన పనితీరును చూపుతుంది. (చిన్న) పరిమిత మార్కోవ్ నిర్ణయ ప్రక్రియల కేసు బాగా అర్థం చేసుకోబడింది. ఏదేమైనా, రాష్ట్రాల సంఖ్యతో (లేదా అనంతమైన రాష్ట్ర ఖాళీలతో సమస్యలకు స్కేల్) బాగా స్కేల్ చేసే అల్గోరిథంలు లేకపోవడం వల్ల, సాధారణ అన్వేషణ పద్ధతులు అత్యంత ఆచరణాత్మకమైనవి.
అన్వేషణ సమస్యను పట్టించుకోకపోయినా మరియు రాష్ట్రం పరిశీలించదగినది అయినప్పటికీ, ఏ చర్యలు అధిక సంచిత ప్రతిఫలాలకు దారితీస్తాయో తెలుసుకోవడానికి గత అనుభవాన్ని ఉపయోగించడం సమస్య.
సర్టిఫికేషన్ పాఠ్యాంశాలతో మిమ్మల్ని మీరు వివరంగా తెలుసుకునేందుకు మీరు దిగువ పట్టికను విస్తరించవచ్చు మరియు విశ్లేషించవచ్చు.
EITC/AI/ARL అడ్వాన్స్డ్ రీన్ఫోర్స్మెంట్ లెర్నింగ్ సర్టిఫికేషన్ కరికులమ్ వీడియో రూపంలో ఓపెన్-యాక్సెస్ డిడాక్టిక్ మెటీరియల్లను సూచిస్తుంది. అభ్యాస ప్రక్రియ దశల వారీ నిర్మాణంగా విభజించబడింది (కార్యక్రమాలు -> పాఠాలు -> అంశాలు) సంబంధిత పాఠ్యాంశాలను కవర్ చేస్తుంది. డొమైన్ నిపుణులతో అపరిమిత కన్సల్టెన్సీ కూడా అందించబడుతుంది.
ధృవీకరణ ప్రక్రియపై వివరాల కోసం తనిఖీ చేయండి ఇది ఎలా పని చేస్తుంది.
పాఠ్య ప్రణాళిక సూచనలు
డీప్ రీన్ఫోర్స్మెంట్ లెర్నింగ్ ప్రచురణ ద్వారా మానవ స్థాయి నియంత్రణ
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
యుసి బర్కిలీలో లోతైన ఉపబల అభ్యాసంపై ఓపెన్-యాక్సెస్ కోర్సు
http://rail.eecs.berkeley.edu/deeprlcourse/
మానిఫోల్డ్.ఐ నుండి కె-ఆర్మ్డ్ బందిపోటు సమస్యకు ఆర్ఎల్ వర్తింపజేయబడింది
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
EITC/AI/ARL అడ్వాన్స్డ్ రీన్ఫోర్స్మెంట్ లెర్నింగ్ ప్రోగ్రామ్ కోసం పూర్తి ఆఫ్లైన్ సెల్ఫ్-లెర్నింగ్ ప్రిపరేటరీ మెటీరియల్లను PDF ఫైల్లో డౌన్లోడ్ చేయండి
EITC/AI/ARL ప్రిపరేటరీ మెటీరియల్స్ - ప్రామాణిక వెర్షన్
EITC/AI/ARL ప్రిపరేటరీ మెటీరియల్స్ - సమీక్ష ప్రశ్నలతో పొడిగించిన వెర్షన్