Markov karar süreci

Markov karar süreci (MDP), ayrık zamanlı stokastik bir kontrol sürecidir. Sonuçların bazen rastgele bazen de karar verenin kontrolünde olan durumlarda karar vermeyi matematiksel olarak inceler. Dinamik programlama ve pekiştirmeli öğrenme ile çözülen optimizasyon problemlerinde kullanılır. Markov karar süreci araştırmalarının temellerinin büyük bir kısmı Ronald Howard'ın 1960 yılında basılan Dinamik Programlama ve Markov Süreçleri (Dynamic Programming and Markov Processes) adlı kitabında atılmıştır.[1] Robotik, ekonomi, üretim gibi farklı alanlarda kullanılır. İsmini Markov zincirinin mucidi Rus Matematikçi Andrey Markov'dan alır.

Kaynakça

Howard, Ronald A. "Dynamic Programming and Markov Processes" (PDF). The M.I.T. Press. 9 Ekim 2011 tarihinde kaynağından (PDF) arşivlendi. Erişim tarihi: 2 Mayıs 2020.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[1] Howard, Ronald A. "Dynamic Programming and Markov Processes" (PDF). The M.I.T. Press. 9 Ekim 2011 tarihinde kaynağından (PDF) arşivlendi. Erişim tarihi: 2 Mayıs 2020.