AI모델 훈련 기법 3

AI모델 성능 평가 (1) : 과적합(overfitting)과 과소적합(underfitting) 판단기준 및 해결방법

과적합(overfitting)과 과소적합(underfitting)은 머신러닝 모델의 성능을 평가할 때 중요한 개념입니다. 이 두 현상은 모델이 학습 데이터에 대한 일반화 능력에 영향을 미치며, 각각의 발생 기준과 해결 방법을 이해하는 것이 중요합니다. 여기서 말하는 "일반화 능력"은 모델이 학습 데이터에만 국한되지 않고, 새로운 데이터에도 적절하게 반응할 수 있는 능력을 의미합니다. 즉, 학습 데이터로 훈련된 모델이 처음 보는 상황이나 데이터에 대해서도 정확한 예측을 할 수 있는 능력입니다. 일반화 능력에 영향을 미치는 두 가지 대표적인 현상이 “과적합(overfitting)”과 “과소적합(underfitting)”입니다.   1. 과적합 (Overfitting)과적합은 모델이 학습 데이터에 너무 잘 맞..

RLHF (Human 피드백을 통한 강화 학습, Reinforcement Learning from Human Feedback) 사용 사례

RLHF(인간 피드백을 통한 강화 학습, Reinforcement Learning from Human Feedback)은 AI 학습에서 중요한 기술로, 인간이 제공하는 피드백을 사용해 AI의 행동을 향상시키는 방법입니다. 특히 AI가 더 인간적인 방식으로 상호작용하고, 윤리적이면서도 사용자가 원하는 대로 반응할 수 있도록 돕는 데 활용됩니다. RLHF는 기본적으로 AI의 행동이나 결정이 좋았는지 나빴는지에 대해 사람의 평가를 반영하여 학습하는 과정입니다. 구체적인 사용 사례는 다음과 같습니다.  1. 대화형 AI 시스템 (챗봇)RLHF는 챗봇을 훈련하는 데 매우 효과적으로 사용됩니다. 예를 들어, 사용자가 챗봇과 대화를 할 때, 사용자는 AI가 제공한 답변이 만족스러웠는지 아니면 개선이 필요한지에 대해 ..

InstrucrGPT (ChatGPT 전신) training process

ChatGPT의 전신인 InstructGPT는 GPT-3를 강화학습 기법으로 fine-tuning하여 사용자의 의도에 맞는 답변을 생성하는 것을 목표로 하였으며, Fine-tuning용 데이터를 구축하기 위하여 40명의 Labeler를 고용하였음. 아래는 InstructGPT의 Training process임    Step 1 (Supervised Fine-tuned Model) :   InstructGPT 논문에서 설명한 Step1 구성 방법1. Demonstration Data (prompt-response 쌍) 수집, 13k DataSet     - prompt : labeler가 직접 작성 + Open AI의 API를 통해 수집된 실제 사용자들의 prompt    - response : 주어진 p..