🔷 IID(독립항등분포): 통계학의 핵심 개념 쉽게 이해하기안녕하세요, 데이터와 통계에 관심 있는 분들을 위해 오늘은 통계학에서 매우 중요한 개념인 IID(Independent and Identically Distributed, 독립항등분포)에 대해 자세히 알아보겠습니다. IID는 통계 모델링, 머신러닝, 데이터 분석에서 자주 등장하는 개념으로, 이를 이해하면 데이터 분석의 기초를 단단히 다질 수 있습니다. 초보자도 쉽게 따라올 수 있도록 예시와 함께 설명하고, 마지막에는 IID의 실제 응용과 한계도 다뤄볼게요! 🔷 1. IID란 무엇인가?IID는 "독립적이고 동일하게 분포된(Independent and Identically Distributed)" 데이터나 확률 변수를 의미합니다. 이 용어는 두 ..
📘 3.1 유한 마르코프 결정 과정과 에이전트–환경 구조― 선택, 결과, 그리고 목표를 향한 학습의 기본 구조✅ 1. 마르코프 결정 과정(MDP)이란?강화학습은 단순한 예측이 아니라, 선택을 통해 보상을 극대화하고 목표를 달성하는 과정입니다. 에이전트는 어떤 환경 안에서 반복적으로 상태(state)를 관찰하고, 그에 따라 행동(action)을 선택합니다. 그 선택의 결과로 보상(reward)을 받으며, 이 경험을 바탕으로 더 나은 전략을 학습합니다.이러한 상호작용 과정을 수학적으로 정의한 것이 바로 마르코프 결정 과정(Markov Decision Process, MDP)입니다.📌 MDP의 기본 구성요소구성 요소설명상태 \( S \)에이전트가 현재 처한 환경의 정보입니다.행동 \( A \)에이전트가 상..
📘 2.9 Contextual Bandits ― 상황에 따라 다른 행동을 선택해야 한다는 말의 의미✅ 정의: Contextual Bandits란?Contextual Bandit(상황 기반 밴딧)은 기존의 단순 밴딧 문제보다 한 단계 더 현실적인 상황을 다룹니다.기존 밴딧에서는 어떤 행동을 선택할지를 고민했다면, Contextual Bandit은 "지금 이 상황에서 어떤 행동을 해야 하느냐"를 학습합니다.즉, 모든 행동은 상황에 따라 보상이 달라진다는 전제를 갖고 있으며, 우리는 상황을 구별해서 그에 맞는 최적의 행동을 찾아야 합니다.✅ 철학적 문제의식: 왜 상황을 고려해야 하는가?앞선 Gradient Bandit 알고리즘이나 일반적인 밴딧 문제들은 행동의 기대 보상 \( Q(a) \)를 추정하고,..
📘 2.8 Gradient Bandit Algorithms ― 가치 추정이 아니라, 선택 확률 그 자체를 학습한다✅ 출발점: 기존 가치 기반 방식은 왜 탐험에 실패하는가?강화학습에서 행동을 선택하는 전통적인 방식은, 모든 행동의 평균 보상(기대값)을 추정한 후 그중 가장 좋은 행동을 선택하는 것이었다.예를 들어, 어떤 슬롯머신이 평균적으로 보상 5.0을 주고, 다른 슬롯은 3.0을 준다고 하자. 가장 좋은 슬롯을 반복해서 고르면 되는 것처럼 보인다.그래서 등장한 대표적인 가치 기반 알고리즘들에는 Q-learning, ε-greedy, UCB 등이 있다. 이들은 각 행동에 대해 평균 보상 \( q(a) \)를 추정하고, 가장 높은 값을 가진 행동을 선택한다. ✅ 하지만 이 방식은 ‘처음에..
- Total
- Today
- Yesterday
- 열혈프로그래밍
- 회계
- 일본어
- 보세사
- 통계학
- K-MOOC
- 데이터분석
- 인프런
- c++
- 티스토리챌린지
- 통계
- 강화학습
- 오블완
- 일문따
- 류근관
- 백준
- 심리학
- C/C++
- 파이썬
- jlpt
- 여인권
- stl
- Python
- 인지부조화
- 코딩테스트
- C
- 사회심리학
- 일본어문법무작정따라하기
- 뇌와행동의기초
- 윤성우
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |