'reward model' 태그의 글 목록

reward model 1

InstrucrGPT (ChatGPT 전신) training process

ChatGPT의 전신인 InstructGPT는 GPT-3를 강화학습 기법으로 fine-tuning하여 사용자의 의도에 맞는 답변을 생성하는 것을 목표로 하였으며, Fine-tuning용 데이터를 구축하기 위하여 40명의 Labeler를 고용하였음. 아래는 InstructGPT의 Training process임 Step 1 (Supervised Fine-tuned Model) : InstructGPT 논문에서 설명한 Step1 구성 방법1. Demonstration Data (prompt-response 쌍) 수집, 13k DataSet - prompt : labeler가 직접 작성 + Open AI의 API를 통해 수집된 실제 사용자들의 prompt - response : 주어진 p..

AI모델 훈련 기법 2024.10.01

AI시대의 소프트웨어 아키텍처

software-archi-with-ai 님의 블로그 입니다.

아키텍처 패턴, architecture pattern, sw architect, GCP, 오블완, RLHF, poeaa, 티스토리챌린지, AI, AI서비스, SW Architecture, pattern, 컨테이너화 기술, Rag, 파인튜닝, 서버리스, 워크로드, Azure, MSA, AWS, 가상화 기술, tpmc, SW아키텍처, MS, 파이썬, fine-tuning, 인스턴스, 클라우드, AI모델, ai service,

Today :
Yesterday :

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

reward model 1

티스토리툴바