학습
뉴스
도구
Jobs
용어집
인증
퀴즈
미션
지원
English
Search
⌘K
AI 도구 제출
기부
English
Search
⌘K
학습
AI Guides & Foundations
뉴스
Latest AI Developments
도구
Top AI Directory
Jobs
AI Hiring Board
용어집
AI Terms Dictionary
인증
Get Your AI Certificate
퀴즈
Interactive AI Assessments
미션
Why We Exist
지원
Help and Contact
AI 도구 제출
기부
English
← 모든 퀴즈로 돌아가기
가이드 연계 퀴즈 • 중간 레벨 • 6 질문
Q-러닝 퀴즈
Q-Learning이 어떻게 행동 가치를 추정하고 최적의 행동으로 수렴하는지에 대한 이해를 테스트하세요.
관련 가이드 경로
Q학습
질문 1 의 6
정답: 0
Q-값 Q(s, a)는 무엇을 나타냅니까?
힌트가 필요하신가요?
상태 s에 있을 확률
상태 s에서 조치 a를 취한 후 최적으로 행동할 때 예상되는 장기 보상
작업 a가 시도된 횟수
행동에 대해서만 즉각적인 보상