테스트 및 평가 가이드

예상 소요 시간: 10분

LaaS에서 제공하는 테스트 및 평가 기능을 활용하여 AI 모델의 성능을 검증하고 최적화하는 방법을 알아보세요. 자동화된 테스트 및 다양한 평가 도구를 통해 보다 정교한 AI 응답을 생성할 수 있습니다.

1. 개요

LaaS의 테스트 기능은 프리셋(프롬프트 설정)의 정확성과 신뢰성을 보장하기 위해 제공됩니다. 이를 통해 AI 모델의 응답을 정밀하게 분석하고 최적화할 수 있습니다.

주요 기능

✅ 자동화된 테스트 실행: 다량의 데이터를 기반으로 모델을 평가할 수 있습니다.
✅ 다양한 평가 방법 제공: 유사도 평가, LLM 평가, 수동 평가 등 다양한 방법을 활용할 수 있습니다.
✅ 테스트 결과 분석 및 최적화: 평가 도구를 사용해 성능을 개선하고 반복적인 검증을 수행할 수 있습니다.

2. 테스트 데이터 준비 및 설정

2.1 샘플 데이터 생성

테스트를 원활하게 진행하기 위해 샘플 데이터를 준비해야 합니다.

Excel 양식 다운로드: LaaS 제공 양식을 다운로드하여 데이터를 입력합니다.
- 샘플 다운로드
데이터 입력: 입력값(input), 예상 결과(expected_result) 등의 필드를 작성합니다.
형식 준수: 데이터 형식이 일정하도록 유지하며, 테스트 실행 시 오류를 방지합니다.
지원 포맷: CSV, XLSX 형식을 지원하며, 최대 50개의 샘플 데이터로 테스트 가능합니다.

2.2 테스트 태스크(Task) 생성

테스트 실행을 위해 태스크(Task)를 생성해야 합니다.

1️⃣ 테스트 메뉴에서 '태스크 추가' 클릭
2️⃣ 프리셋 선택: 프로젝트 내에서 테스트할 프리셋을 선택합니다.
3️⃣ 태스크 이름 입력: 테스트를 쉽게 구분할 수 있도록 직관적인 이름을 설정합니다.
4️⃣ 데이터 매핑: 샘플 데이터의 변수와 프리셋 변수를 매핑하여 일관된 결과를 확보합니다.

3. 평가 방법 및 분석

3.1 평가 방법 선택

LaaS에서는 세 가지 평가 방법을 지원합니다.

1) 유사도 평가 (Similarity Evaluation)

✅ AI 응답과 예상 결과의 유사도 점수를 계산합니다.
✅ 활용 모델: text-embedding-3-small 모델을 사용해 벡터화 후 유사도를 계산합니다.
✅ 적용 사례: 챗봇 응답의 일관성을 평가할 때 효과적입니다.

2) LLM 평가 (LLM Evaluation)

✅ AI 모델이 생성한 응답의 문법적 정확성과 의미적 일관성을 평가합니다.
✅ 활용 모델: GPT-4o 등 고성능 LLM을 활용하여 결과를 분석합니다.
✅ 적용 사례: 자연어 처리 기반의 응답 품질을 평가할 때 유용합니다.

3) 수동 평가 (Manual Evaluation)

✅ 사람이 직접 AI 응답을 검토하여 품질을 평가합니다.
✅ 적용 사례: 자동화된 평가가 어려운 경우, 미세 조정이 필요한 응답을 평가할 때 활용됩니다.

3.2 테스트 결과 분석

유사도 평가 결과 조회: 평가 완료된 테스트의 유사도 점수를 확인합니다.
LLM 평가 결과 조회: 평가 모델의 결과 점수를 확인하고 모델별 성능을 비교합니다.
수동 평가 분석: 사람이 직접 평가한 점수를 활용하여 최적화 포인트를 파악합니다.

📊 평가 리포트는 대시보드에서 실시간 확인 가능하며, 평균 응답 길이, 유사도 점수, 요청 횟수 등의 데이터를 포함합니다.

4. 테스트 최적화 및 개선 방법

4.1 테스트 자동화 및 최적화

자동화된 테스트 환경을 구축하여 반복 검증을 수행할 수 있습니다.

정기 테스트 설정: 월 단위 또는 특정 릴리스 전 테스트를 실행하여 성능을 유지합니다.
프리셋 업데이트 전 검증: 새로운 버전 배포 전에 자동화 테스트를 수행하여 안정성을 확보합니다.

4.2 모델 성능 개선

테스트 결과를 바탕으로 프리셋을 최적화할 수 있습니다.

프리셋 수정: 성능이 저조한 프리셋을 업데이트하고 다시 테스트합니다.
LLM 변경 테스트: 다양한 모델을 적용하여 최적의 성능을 찾습니다.
프롬프트 조정: AI의 응답 품질을 높이기 위해 프롬프트를 개선합니다.

5. 문제 해결 (FAQ)

Q1: API 테스트 실행이 실패하는 이유는?

✅ 해결 방법: API 키 또는 프리셋 설정을 확인하세요.

Q2: 유사도 평가 점수가 낮게 나오는 이유는?

✅ 해결 방법: 예상 결과(expected_result) 데이터를 보다 명확하게 설정하세요.

Q3: 테스트 데이터가 정상적으로 입력되지 않는 이유는?

✅ 해결 방법: CSV 또는 XLSX 파일의 데이터 형식을 다시 검토하세요.

📌 LaaS 무료 체험하기

이제 LaaS의 테스트 및 평가 기능을 활용하여 AI 응답을 최적화하고 성능을 개선하세요! 🚀

1. 개요​

주요 기능​

2. 테스트 데이터 준비 및 설정​

2.1 샘플 데이터 생성​

2.2 테스트 태스크(Task) 생성​

3. 평가 방법 및 분석​

3.1 평가 방법 선택​

1) 유사도 평가 (Similarity Evaluation)​

2) LLM 평가 (LLM Evaluation)​

3) 수동 평가 (Manual Evaluation)​

3.2 테스트 결과 분석​

4. 테스트 최적화 및 개선 방법​

4.1 테스트 자동화 및 최적화​

4.2 모델 성능 개선​

5. 문제 해결 (FAQ)​

Q1: API 테스트 실행이 실패하는 이유는?​

Q2: 유사도 평가 점수가 낮게 나오는 이유는?​

Q3: 테스트 데이터가 정상적으로 입력되지 않는 이유는?​