RLHF 3

RLHF 가 적용된 AI모델 및 서비스

RLHF(인간 피드백을 통한 강화 학습)가 실질적으로 적용된 AI 모델 및 서비스는 다양합니다. 이 기술은 AI가 사람들과 더 자연스럽고 유용하게 상호작용할 수 있도록 돕기 때문에, 상업적으로 성공한 여러 AI 시스템에 사용되었습니다. 아래에 RLHF가 실질적으로 적용된 AI 모델과 서비스의 구체적인 예시를 소개합니다.  1. OpenAI의 ChatGPT- 적용된 방식: ChatGPT는 RLHF의 대표적인 성공 사례입니다. 이 모델은 기본적인 언어 모델을 인간 피드백으로 미세 조정하여, 더 자연스럽고 유용한 대화를 할 수 있도록 개선되었습니다. 사용자들이 제공한 대답의 품질을 평가하고, 올바른 응답을 선택하거나 수정하는 과정을 통해 모델을 개선하는 과정이 포함됩니다.- 구체적 사례: 초기에 GPT-3 모..

AI Service 2024.10.05

RLHF (Human 피드백을 통한 강화 학습, Reinforcement Learning from Human Feedback) 사용 사례

RLHF(인간 피드백을 통한 강화 학습, Reinforcement Learning from Human Feedback)은 AI 학습에서 중요한 기술로, 인간이 제공하는 피드백을 사용해 AI의 행동을 향상시키는 방법입니다. 특히 AI가 더 인간적인 방식으로 상호작용하고, 윤리적이면서도 사용자가 원하는 대로 반응할 수 있도록 돕는 데 활용됩니다. RLHF는 기본적으로 AI의 행동이나 결정이 좋았는지 나빴는지에 대해 사람의 평가를 반영하여 학습하는 과정입니다. 구체적인 사용 사례는 다음과 같습니다.  1. 대화형 AI 시스템 (챗봇)RLHF는 챗봇을 훈련하는 데 매우 효과적으로 사용됩니다. 예를 들어, 사용자가 챗봇과 대화를 할 때, 사용자는 AI가 제공한 답변이 만족스러웠는지 아니면 개선이 필요한지에 대해 ..

InstrucrGPT (ChatGPT 전신) training process

ChatGPT의 전신인 InstructGPT는 GPT-3를 강화학습 기법으로 fine-tuning하여 사용자의 의도에 맞는 답변을 생성하는 것을 목표로 하였으며, Fine-tuning용 데이터를 구축하기 위하여 40명의 Labeler를 고용하였음. 아래는 InstructGPT의 Training process임    Step 1 (Supervised Fine-tuned Model) :   InstructGPT 논문에서 설명한 Step1 구성 방법1. Demonstration Data (prompt-response 쌍) 수집, 13k DataSet     - prompt : labeler가 직접 작성 + Open AI의 API를 통해 수집된 실제 사용자들의 prompt    - response : 주어진 p..