반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- tensorboard 에러
- tersorboard mapping
- 일기 #다짐
- OPIC 오늘 시작
- ImportError: cannot import name 'Mapping' from 'collections' tensrorbaord
- 공개키 docker
- ImportError: cannot import name 'Mapping' from 'collections'
- reinforced learning
- 음성전처리 #음성처리 #python 음성추출 # python 음성 추출 #moviepy
- 엑셀에 ollama
- tensorboard html5
- 인간종말
- docker 환경 문제
- dice loss
- whisper jax
- DDPG
- OPIC 당일치기
- 강화학습 간단 정리
- ollama
- 빅데이터 분석기사 #빅분기실기 #데이터마님 # 빅분기실기준비
- cross entoropy
- AI모델
- AI생성함
- OPIC 번개
- focal loss
- OPIC 하루 전
- tesorboard
- OPIC 시험 전날
- OPIC 하루전 시작
- gpt excel 사용
Archives
- Today
- Total
목록reinforced learning (1)
Moonie
reinforced learning 간단 정리
Q-러닝 (Q-Learning):Q-러닝은 강화학습에서 가장 기본적인 오프-정책(off-policy) 방법 중 하나로, 에이전트가 상태-행동 가치 함수(Q-함수)를 학습하여 최적의 정책을 찾는 알고리즘입니다. 에이전트는 환경과 상호 작용하며 보상을 받고, 이를 기반으로 Q-함수를 업데이트하여 각 상태에서 어떤 행동을 선택해야 최대의 누적 보상을 얻을 수 있는지 학습합니다. 예를 들어, 미로 찾기 게임에서 에이전트가 출발점에서 목표 지점까지 최단 경로를 찾는 상황을 생각해봅시다. 미로의 각 위치는 상태(state)에 해당하며, 에이전트는 상하좌우로 이동하는 행동(action)을 취할 수 있습니다. 목표 지점에 도달하면 보상(reward)을 받습니다. 에이전트는 처음에는 무작위로 움직이지만, Q-러닝 알고리..
공부/기타 다른 공부
2024. 9. 28. 16:23