ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • LLM (대규모 언어모델) 관련 내용 정리, 기업별 정의 내용
    Trend 2024. 1. 20. 15:06
    728x90

     

     

    대규모 언어모델 (LLM)

     

    대규모 언어 모델(LLM)은 방대한 양의 데이터를 학습하여 자연어 및 기타 유형의 콘텐츠를 이해하고 생성하여 광범위한 작업을 수행할 수 있는 기초 모델의 범주(IBM)

    대규모 언어모델(LLM, Large Language Model)이란 대규모 데이터 세트에서 얻은 지식을 기반으로 텍스트와 다양한 콘텐츠를 인식하고 요약, 번역, 예측, 생성할 수 있는 딥 러닝 알고리즘(NVIDIA)

    대형 언어 모델(LLM)은 방대한 양의 데이터를 기반으로 사전 학습된 초대형 딥 러닝 모델입니다. 기본 트랜스포머는 셀프 어텐션(self-attention) 기능을 갖춘 인코더와 디코더로 구성된 신경망 세트입니다. 인코더와 디코더는 일련의 텍스트에서 의미를 추출하고 텍스트 내의 단어와 구문 간의 관계를 이해합니다.(AWS)

     

    특징

    생산 분야에서 이런 대규모 모델을 효율적으로 사용하려면 무엇보다 리소스가 풍부하고 전문 기술이 있어야 함

    모델 배포를 표준화하고 생산에서 빠르고 확장 가능한 AI가 필요함

    세 가지 일반적인 학습 모델이 있습니다.

     

    (AWS)

    제로샷 학습: 기본 LLM은 응답 정확도는 다르지만 대개 프롬프트를 통해 명시적인 훈련 없이 광범위한 요청에 응답할 수 있습니다.

    퓨샷 학습: 몇 가지 관련 훈련 예제를 제공하면 해당 영역에서 기본 모델 성능이 크게 향상됩니다.

    미세 조정: 이는 데이터 사이언티스트과 특정 애플리케이션과 관련된 추가 데이터로 파라미터를 조정하도록 기본 모델을 훈련한다는 점에서 퓨샷 학습의 연장입니다.

     

    (redhat)

    비용

    LLM을 개발, 훈련, 배포하려면 많은 리소스가 필요합니다. 이러한 이유로 인해 NLP 기능으로 사전 훈련되고 언어에 대한 기본 이해를 제공하는 기반 모델로부터 구축되는 LLM이 많으며, 여기에서 더 복잡한 LLM이 파생될 수 있습니다.

    프라이버시와 보안

    LLM에는 많은 정보에 대한 액세스가 필요하며, 때로는 그러한 정보에 고객 정보나 상용 비즈니스 데이터가 포함되기도 합니다. 이는 제3사 제공업체가 모델을 배포하거나 액세스하는 경우에 특히 주의해야 하는 부분입니다.

    정확성과 편향

    딥러닝 모델이 통계적으로 편향된 데이터로 학습하거나 모집단의 정확한 표현을 제공하지 않는 경우 출력에 결함이 있을 수 있습니다. 안타깝게도 사람의 편견이 인공지능에 전달되어 차별적인 알고리즘과 편향 출력에 대한 위험을 초래할 때가 많습니다. 조직이 생산성과 성과 향상을 위해 AI를 지속적으로 활용하는 만큼, 편향을 최소화하기 위한 전략 마련이 중요해졌습니다. 이를 위해서는 우선 포용성 있는 설계 프로세스를 갖추고 수집된 데이터 내 대표성을 지닌 다양성을 더욱 신중하게 고려해야 합니다.

     

     

    사례, 예시

    NVIDIA NeMo LLM 서비스는 NVIDIA가 관리하는 클라우드 API를 사용하거나 프라이빗 및 퍼블릭 클라우드를 통해 대규모 언어 모델을 사용자 지정하고 이를 대규모로 배포할 수 있는 빠른 경로를 제공

    NVIDIA NeMo MegatronNVIDIA AI 플랫폼 중 하나로, 대규모 언어 모델을 쉽고 효율적이며 비용 효과적으로 훈련하고 배포하는 프레임워크입니다. 엔터프라이즈 애플리케이션용으로 설계된 NeMo Megatron은 자동화된 분산 데이터 처리, 대규모의 맞춤형 GPT-3, T5, 다국어 T5 모델 교육, 규모에 맞는 추론용 모델 배포를 위해 엔드--엔드 워크플로우를 제공합니다.

    NVIDIA BioNeMo는 단백질체학, 소분자, DNA, RNA의 대규모 언어 모델을 위한 도메인별 관리 서비스 및 프레임워크입니다. NVIDIA NeMo Megatron 기반으로 슈퍼컴퓨팅 규모에 맞게 대규모 생체 분자 트랜스포머 AI 모델을 교육하고 배포합니다.

     

     

    주요 프레임워크

    TensorFlow, PyTorch, and Hugging Face Transformers are popular choices.

     

     

     

     

     

     

    반응형
Designed by Tistory.