ChatGPT의 전신인 InstructGPT는 GPT-3를 강화학습 기법으로 fine-tuning하여 사용자의 의도에 맞는 답변을 생성하는 것을 목표로 하였으며, Fine-tuning용 데이터를 구축하기 위하여 40명의 Labeler를 고용하였음. 아래는 InstructGPT의 Training process임 Step 1 (Supervised Fine-tuned Model) : InstructGPT 논문에서 설명한 Step1 구성 방법1. Demonstration Data (prompt-response 쌍) 수집, 13k DataSet - prompt : labeler가 직접 작성 + Open AI의 API를 통해 수집된 실제 사용자들의 prompt - response : 주어진 p..