AI시대의 소프트웨어 아키텍처

  • 홈
  • 태그
  • 방명록

reward model 1

InstrucrGPT (ChatGPT 전신) training process

ChatGPT의 전신인 InstructGPT는 GPT-3를 강화학습 기법으로 fine-tuning하여 사용자의 의도에 맞는 답변을 생성하는 것을 목표로 하였으며, Fine-tuning용 데이터를 구축하기 위하여 40명의 Labeler를 고용하였음. 아래는 InstructGPT의 Training process임    Step 1 (Supervised Fine-tuned Model) :   InstructGPT 논문에서 설명한 Step1 구성 방법1. Demonstration Data (prompt-response 쌍) 수집, 13k DataSet     - prompt : labeler가 직접 작성 + Open AI의 API를 통해 수집된 실제 사용자들의 prompt    - response : 주어진 p..

AI모델 훈련 기법 2024.10.01
이전
1
다음
더보기
프로필사진

AI시대의 소프트웨어 아키텍처

software-archi-with-ai 님의 블로그 입니다.

  • 분류 전체보기 (62)
    • AI Service (7)
    • Technical Architecture (9)
    • Application Architecture (0)
    • Architecture Pattern (17)
    • AI모델 훈련 기법 (3)
    • AI모델 학습 데이터셋 (1)
    • AI모델 소개 (3)
    • SW Architecture Model (1)
    • AI모델 Fine-Tuning (2)
    • 클라우드 (14)
    • 파이썬 (3)
    • 전자정부 프레임워크 (1)

Tag

아키텍처 패턴, architecture pattern, sw architect, GCP, 오블완, RLHF, poeaa, 티스토리챌린지, AI, AI서비스, SW Architecture, pattern, 컨테이너화 기술, Rag, 파인튜닝, 서버리스, 워크로드, Azure, MSA, AWS, 가상화 기술, tpmc, SW아키텍처, MS, 파이썬, fine-tuning, 인스턴스, 클라우드, AI모델, ai service,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/11   »
일 월 화 수 목 금 토
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바