वर्तमान स्थिति / कार्रवाई और भविष्य के इनाम के बीच संबंध

कैसे एजेंट करंट के बीच संबंध बनाते हैं $Q_t(s_t,a_t)$ और भविष्य के प्रतिफल कि मेरे पर्यावरण की प्रकृति से हमें कम से कम 10-15 बार कदम उठाने के बाद इनाम मिलता है। यदि पुरस्कार रिप्ले बफ़र में एकत्र किए जाते हैं और यादृच्छिक रूप से नमूने लिए जाते हैं, तो शायद इसका टूटने वाला है, अन्यथा यदि ऑनलाइन प्रशिक्षण का उपयोग किया जाता है तो इसका क्या हिस्सा है $Q$ अद्यतन भविष्य के इनाम पर विचार करेगा?

संपादित करें: मैंने सुदृढीकरण सीखने में एक और समान प्रश्न विलंबित पुरस्कारों पर ध्यान दिया है । फिर भी, लेकिन इसमें देरी की अवधि निर्धारित की गई थी, यहाँ देरी स्टोचस्टिक है और इनाम नहीं हो सकता है।

Sep 27 2020 at 21:14

सभी मूल्य-आधारित सुदृढीकरण सीखने (आरएल) विधियां समय के चरणों के बीच बैकअप के कुछ रूप का उपयोग करती हैं । बैकअप बाद के समय के चरणों से ज्ञात मूल्यों को लेते हैं, और इसका उपयोग पहले के समय के चरणों में अपेक्षित मूल्यों की गणना करने के लिए करते हैं।

यह आरएल विधि सिद्धांत और डिजाइन का एक महत्वपूर्ण हिस्सा है, और इसमें " बैकअप आरेख " नामक एक दृश्य है जो आपको सुदृढीकरण सीखने के शुरुआती अध्यायों में कई उदाहरण मिलेंगे : एक परिचय ।

क्यू लर्निंग में, आप मूल्यों के बीच संबंध देख सकते हैं $t$ तथा $t+1$ अपडेट में:

$$Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha(r_ + \gamma \text_ Q(s_, a') - Q(s_t, a_t))$$

वह है, का मूल्य $Q(s_t, a_t)$ अद्यतन किया जा रहा है, और के मूल्यों $r_$ तथा $s_$ सीधे उस अद्यतन के कैक्ल्यूलेशन में उपयोग किया जाता है। इस अद्यतन शासन के कई repetitions के साथ, मान रहे हैं ऊपर का समर्थन बाद में समय चरणों समय पहले कदम (जहां देखा अंतिम पुरस्कार के बेहतर ज्ञान है) से।

विशेष रूप से सारणीबद्ध Q सीखने के लिए, आप बूटस्ट्रैप अनुमानों की प्रारंभिक अशुद्धि के बारे में चिंतित थे। परिणामी पूर्वाग्रह एक चिंता का विषय है, और कुछ ऑफ-पॉलिसी तरीकों में यह कवरेज को रोक सकता है। हालांकि, सारणीबद्ध Q अधिगम में उचित मान्यताओं के साथ, इसे अभिसरण करने के लिए सिद्ध किया जा सकता है ।

क्या डे ट्रेडिंग में धीमा स्टोचस्टिक प्रभावी है?

व्यापारियों के लिए उपलब्ध सैकड़ों संकेतकों को देखते हुए, दिन के व्यापार में उपयोग करने के लिए उपयुक्त तकनीकी उपकरण खोजना एक मुश्किल काम हो सकता है। अच्छी खबर यह है कि संकेतक बनाने में उपयोग की जाने वाली समयावधि को समायोजित करके अधिकांश संकेतकों को दिन के कारोबार में इस्तेमाल किया जा सकता है।

अधिकांश व्यापारी प्रत्येक संकेतक को गणना में एक अवधि के रूप में प्रत्येक दैनिक उपयोग को देखने के आदी हैं, लेकिन वे जल्दी से भूल जाते हैं कि व्याख्या एक ही रहती है कि क्या एक अवधि में उपयोग किया गया डेटा एक दिन, एक मिनट, एक सप्ताह, एक महीने के बराबर है या एक चौथाई।

स्टोचैस्टिक ऑस्किलेटर फॉर्मूला

कई व्यापारियों द्वारा चुना गया एक संकेतक तेज या धीमी गति से स्टोकेस्टिक थरथरानवाला है । इसकी गणना निम्न सूत्र का उपयोग करके की जाती है:

80 के% K परिणाम का अर्थ यह है कि पिछले 14 दिनों में हुई सभी पूर्व समापन कीमतों के 80% से ऊपर बंद हुई सुरक्षा की कीमत। मुख्य धारणा यह है कि एक सुरक्षा की कीमत एक प्रमुख अपट्रेंड में सीमा के शीर्ष पर व्यापार करेगी । % K नामक% K की तीन-अवधि की चलती औसत को आमतौर पर सिग्नल लाइन के रूप में कार्य करने के लिए शामिल किया जाता है । % K के माध्यम से% K पार होने पर आमतौर पर लेन-देन के संकेत दिए जाते हैं।

स्टोचस्टिक ऑसिलेटर का उपयोग करना

आम तौर पर, उपरोक्त गणना में 14 दिनों की अवधि का उपयोग किया जाता है, लेकिन व्यापारियों द्वारा अंतर्निहित परिसंपत्ति की कीमत में आंदोलनों के प्रति कम या ज्यादा संवेदनशील बनाने के लिए इस अवधि को अक्सर संशोधित किया जाता है ।

एक ऊपर की ओर चल रहे बाजार में, कीमतें उच्च के पास बंद होनी चाहिए, जबकि नीचे की ओर प्रवृत्ति में, उन्हें कम अंत के पास बंद होना चाहिए।

तेज बनाम धीमा

स्टोचैस्टिक ऑसिलेटर की “गति”% D और% K इनपुट के लिए उपयोग की जाने वाली सेटिंग्स को संदर्भित करती है। उपरोक्त सूत्र को लागू करने से प्राप्त परिणाम को तेज स्टोचस्टिक के रूप में जाना जाता है। कुछ व्यापारियों का मानना ​​है कि यह सूचक मूल्य परिवर्तनों के लिए बहुत ही उत्तरदायी है, जो अंततः समय से पहले ही पदों से बाहर हो जाता है। इस समस्या को हल करने के लिए, धीमी गति से स्टोकेस्टिक का आविष्कार तेज गणना के% K के लिए तीन-अवधि की चलती औसत को लागू करके किया गया था।

  • तेज : सूत्र ऊपर दिखाया गया है, लेकिन % K का 3-दिवसीय चलती औसत (MA) का उपयोग कर रहा है ।
  • धीमा: % K को फास्ट D% (यानी% K का एमए) से बदलें; D% को धीमी K% के MA ​​से बदलें,

तेजी से स्टोकेस्टिक% K की तीन-अवधि की चलती औसत लेना लेनदेन संकेतों की गुणवत्ता बढ़ाने के लिए एक प्रभावी तरीका साबित हुआ है; यह झूठे क्रॉसओवर की संख्या को भी कम करता है । पहला मूविंग एवरेज स्टोकेस्टिक के% K पर लागू होने के बाद, एक अतिरिक्त तीन-पीरियड मूविंग एवरेज तब लागू किया जाता है – जिसे धीमी स्टोचैस्टिक% D के रूप में जाना जाता है। निकट निरीक्षण से पता चलेगा कि धीमे स्टोचैस्टिक का% K फास्ट स्टोचस्टिक पर% D (सिग्नल लाइन) के समान है।

स्लो स्टोचस्टिक का उपयोग क्यों करें

धीमी स्टोचस्टिक दिन के व्यापारियों द्वारा उपयोग किए जाने वाले सबसे लोकप्रिय संकेतकों में से एक है क्योंकि यह एक गलत संकेत के आधार पर एक स्थिति में प्रवेश करने की संभावना को कम करता है। आप एक तेज स्टोचैस्टिक को स्पीडबोट के रूप में फास्ट स्टोचस्टिक बनाम धीमी स्टोचस्टिक सोच सकते हैं; यह चुस्त है और बाजार में अचानक आंदोलन के आधार पर दिशाओं को आसानी से बदल सकता है। दूसरी ओर एक धीमा स्टोचस्टिक, विमान वाहक की तरह अधिक है, इसमें दिशा बदलने के लिए अधिक इनपुट लगता है।

सामान्य तौर पर, एक धीमा स्टोचस्टिक पिछले 14 अवधियों में नवीनतम समापन मूल्य की उच्च और निम्न स्थिति को मापता है। इस सूचक का उपयोग करते समय, मुख्य धारणा यह है कि एक परिसंपत्ति की कीमत एक अपट्रेंड में सीमा के शीर्ष और एक डाउनट्रेंड में निचले हिस्से के पास व्यापार करेगी। यह संकेतक दिन के व्यापारियों द्वारा उपयोग किए जाने पर बहुत प्रभावी होता है, लेकिन एक समस्या जो उत्पन्न हो सकती है वह यह है कि कुछ चार्टिंग सेवाएं इसे अपने चार्ट पर एक विकल्प के रूप में शामिल नहीं कर सकती हैं। यदि आपके लिए यह मामला है, तो आप फिर से मूल्यांकन करने पर फास्ट स्टोचस्टिक बनाम धीमी स्टोचस्टिक विचार कर सकते हैं कि आप किस चार्टिंग सेवा का उपयोग करते हैं।

मार्टिंगेल परिभाषा अंकन

मैं श्रेवे द्वारा स्टोचस्टिक कैलकुलस पढ़ रहा हूं और जब वह पहली बार परिभाषा के साथ एक मार्टिंगेल का परिचय देता है, तो इस धारणा से थोड़ा भ्रमित हूं: $E_n(X_)=X_n $ मुझे समझ नहीं आ रहा है कि ऐसा क्यों है $X_n$ पूंजीकृत है। मैंने सोचा था कि जब हम एक विशिष्ट मूल्य का उल्लेख करते हैं तो एक यादृच्छिक चर लेता है जिसे हम लिखेंगे $x$ विरोध के रूप में $X$ । नहीं करता है $X_n$ यहाँ समय पर एक ज्ञात मूल्य को देखें $n$ ?

Oct 16 2020 at 14:फास्ट स्टोचस्टिक बनाम धीमी स्टोचस्टिक 50

आप अपने लिए स्पष्ट कर सकते हैं कि यहाँ संकेतन का क्या अर्थ है। परिचालक $\mathbb_$ एक सशर्त अपेक्षा के लिए एक संक्षिप्त नाम है, जिसे कुछ सिग्मा बीजगणित कहते हैं $\mathcal_$ एक निस्पंदन का $\lbrace \mathcal_\rbrace_$ , यानी \ start \ mathbb _ [X]: = \ mathbb <>> [X | \ mathcal _ ] फास्ट स्टोचस्टिक बनाम धीमी स्टोचस्टिक | \ end और यह आदमी नियतात्मक नहीं बल्कि यादृच्छिक है! अर्थात् इसे यादृच्छिक चर के रूप में परिभाषित किया गया है जो सभी के खिलाफ एकीकृत करता है $\mathcal_$ के रूप में एक ही तरह से यादृच्छिक यादृच्छिक चर $X$ कर देता है। अभी $\mathbb_[X_]$ यादृच्छिक होने के नाते, आपको कम आश्चर्यचकित होना चाहिए $X_$ (जो यादृच्छिक है) आपके समीकरण के दायीं ओर पूंजीकृत किया जा रहा है। यह दो यादृच्छिक चर के बीच एक पहचान है (जो कि btw इसलिए केवल सच होने के लिए कहा जाता है $\mathbb$ -सबसे निश्चित रूप से)।

रेटिंग: 4.26
अधिकतम अंक: 5
न्यूनतम अंक: 1
मतदाताओं की संख्या: 833