목록으로
🤖 창작과 취미 - 챗봇

GPT 챗봇에 지식 베이스 연결하기 - AI 데이터 학습 가이드

회사 매뉴얼과 제품 정보를 학습시켜보세요! 내 데이터를 챗봇에 연결해 전문 상담사로 만드는 법입니다.

"내가 만든 건 완벽해!"... 정말?

열심히 챗봇을 만들었어요. 테스트도 해봤고, 잘 작동하고, 완벽한 것 같아요.

그런데 친구에게 보여줬더니: "어... 이거 어떻게 쓰는 거야?" "왜 이렇게 답변해?" "이거 필요한가?"

충격이죠. 하지만 이게 현실이에요.

내가 만든 건 내 눈에만 완벽해 보여요. 다른 사람이 써봐야 진짜 문제를 찾을 수 있죠.

오늘은 챗봇을 제대로 테스트하는 방법을 알려드릴게요.

왜 다른 사람 테스트가 필요한가요?

1. 내 편견 깨기

만든 사람은 어떻게 쓰는지 이미 알아요. 하지만 처음 보는 사람은?

나: (당연히 메뉴 종류를 말하겠지)
친구: "뭐 있어?" (예상 밖 질문)
→ 챗봇 당황: "죄송합니다, 이해하지 못했습니다"

2. 실제 사용 패턴 발견

예상 밖의 사용 방식을 발견할 수 있어요.

예상: "피자 주문할게요" → "페퍼로니로 주세요"
실제: "배고파" → "빨리 줘" → "그냥 아무거나"

3. 숨은 버그 찾기

혼자선 못 찾던 문제가 드러나요.

혼자 테스트: 모든 단계 순서대로
친구 테스트: "아 이거 취소" → 시스템 오류?

테스트 준비하기

1단계: 테스터 모집

누구에게 부탁할까요?

좋은 테스터:

  • 솔직하게 말해줄 사람
  • 실제 타겟 사용자와 비슷한 사람
  • 기술에 익숙하지 않은 사람 (더 좋음!)

인원:

  • 최소 3명
  • 다양한 배경의 사람들

예시:

테스터 1: 20대 여성, 온라인 쇼핑 자주
테스터 2: 40대 남성, 기술 익숙하지 않음
테스터 3: 10대, 챗봇 처음 사용

2단계: 테스트 환경 준비

공유 방법 결정:

ChatGPT Custom GPT:

  • 링크 복사해서 전송
  • Public으로 설정 필요

Claude Project:

  • 프롬프트를 복사해서 전달
  • 직접 만들게 하기

Poe 봇:

  • 링크 공유
  • 로그인 필요 안내

3단계: 테스트 시나리오 작성

무작정 "써봐"가 아니라 구체적 미션을 줘요.

예시: 쇼핑몰 챗봇

미션 1: 제품 찾기
"원피스를 찾아보세요.
어떤 과정을 거쳤나요?
쉬웠나요, 어려웠나요?"

미션 2: 추천받기
"데이트 룩을 추천받아보세요.
추천이 마음에 드셨나요?"

미션 3: 주문하기
"마음에 드는 제품을 주문해보세요.
(실제 결제는 하지 마세요)
과정이 명확했나요?"

미션 4: 문제 상황
"주문을 중간에 취소해보세요.
쉽게 할 수 있었나요?"

테스트 방법 3가지

방법 1: 소리내어 생각하기 (Think Aloud)

테스터가 생각을 말하면서 사용해요.

어떻게:

테스터: "음... 원피스를 찾고 싶은데...
        뭐라고 말해야 하지?
        '원피스 보여줘'라고 해볼까?
        (입력)
        오, 나왔네!
        근데 너무 많은데?
        어떻게 좁히지..."

장점:

  • 사고 과정을 실시간으로 볼 수 있음
  • 막히는 지점을 정확히 알 수 있음

기록하기:

막힌 지점:
- "뭐라고 말해야 할지 모르겠다" (시작할 때)
- "선택지가 너무 많다" (검색 결과)
- "취소 버튼을 못 찾겠다" (중간 취소 시)

방법 2: 관찰하기

말은 시키지 말고 그냥 지켜봐요.

체크리스트:

□ 첫 화면에서 멈칫하는가?
□ 어디를 먼저 클릭/입력하는가?
□ 같은 질문을 반복하는가?
□ 짜증나는 표정을 짓는가?
□ 중간에 포기하는가?

타이밍 측정:

시작 → 첫 입력: 15초 (너무 길다?)
질문 → 답변: 2초 (적당)
전체 미션: 3분 (목표: 2분)

방법 3: 설문조사

테스트 후 질문하기.

필수 질문:

1. 챗봇을 사용하기 쉬웠나요? (1-5점)
   1 (매우 어려움) ~ 5 (매우 쉬움)

2. 챗봇의 답변이 이해하기 쉬웠나요? (1-5점)

3. 원하는 결과를 얻었나요? (예/아니요)
   - 아니요라면 왜?

4. 가장 좋았던 점은?

5. 가장 불편했던 점은?

6. 이 챗봇을 다시 사용하고 싶나요? (예/아니요)

7. 친구에게 추천하고 싶나요? (1-5점)

추가 질문:

8. 챗봇의 말투는 어땠나요?
   - 너무 격식적
   - 적당함
   - 너무 캐주얼

9. 답변 속도는 어땠나요?
   - 너무 느림
   - 적당
   - 빠름

10. 가장 기억에 남는 대화는?

실전 테스트 시나리오

테스트 1: 첫인상 테스트

목표: 5초 안에 이해할 수 있나?

방법:

  1. 챗봇 화면 보여주기
  2. 5초 후 화면 가리기
  3. 질문하기

질문:

- 이 챗봇이 뭐 하는 거 같아?
- 어떻게 시작할 것 같아?
- 어떤 말투일 것 같아?

좋은 예:

"아, 쇼핑 도와주는 거네!"
"여기 입력창에 뭐 찾는지 말하면 되겠다"
"친근한 느낌이네"

나쁜 예:

"음... 뭐 하는 건지 모르겠는데?"
"어디서 시작하지?"
"이게 챗봇이야?"

테스트 2: 핵심 기능 테스트

목표: 주요 기능을 3분 안에 사용할 수 있나?

시나리오:

[쇼핑몰 챗봇 예시]

시작:
"이 챗봇을 처음 봤다고 생각하세요.
원피스를 하나 찾아서 장바구니에 넣어보세요."

관찰 포인트:
✓ 스스로 시작했나?
✓ 막히지 않고 진행했나?
✓ 도움말을 찾았나?
✓ 포기하지 않았나?

목표: 3분 이내 완료

결과 기록:

테스터 1: 2분 30초 ✓ 성공
- 순조로웠음
- "사이즈" 선택에서 3초 멈칫

테스터 2: 5분 ✗ 실패
- "어떻게 검색하는지 모르겠다"
- 도움말을 못 찾음
- 중간에 "이거 맞아?" 불안해함

테스터 3: 3분 50초 △ 거의 성공
- 전체적으로 OK
- 장바구니 버튼을 못 찾음

테스트 3: 예외 상황 테스트

목표: 문제 상황도 잘 처리하나?

시나리오:

미션: 일부러 이상하게 써보세요

1. 욕설이나 이상한 말 입력
   → 챗봇 반응은?

2. 아무 답도 안 하고 기다리기
   → 타임아웃? 재질문?

3. 중간에 엉뚱한 질문
   예: 주문 중에 "너 이름이 뭐야?"
   → 맥락 유지하나?

4. "취소", "처음부터", "끝" 같은 명령어
   → 제대로 작동하나?

체크포인트:

✓ 욕설 필터링 작동하나?
✓ 이상한 입력에도 친절한가?
✓ 컨텍스트를 잃어버리지 않나?
✓ 사용자가 빠져나갈 방법이 있나?

피드백 정리하기

문제점 분류

받은 피드백을 정리:

[심각한 문제] 🔴
- 챗봇이 먹통됨
- 주문이 안 됨
- 개인정보 노출

→ 즉시 수정 필요

[중요한 문제] 🟡
- 답변이 이해 안 됨
- 단계를 건너뜀
- 도움말이 부족함

→ 우선 수정

[개선사항] 🟢
- 말투가 좀 딱딱함
- 이모티콘이 부족함
- 더 빠르면 좋겠음

→ 여유있을 때 수정

빈도 체크

여러 명이 같은 얘기를 하나?

"시작 방법을 모르겠다" - 3명 🔴
"답변이 너무 길다" - 2명 🟡
"이모티콘 더 넣어" - 1명 🟢

→ 3명이 말했으면 진짜 문제!

실제 테스트 케이스: 카페 주문 봇

테스트 세팅

봇: 카페 주문 챗봇
테스터: 친구 3명 (A, B, C)
미션: "아메리카노 한 잔 주문해보세요"

테스터 A (20대 여성, IT 친숙)

진행:

00:00 - 시작
00:05 - "아메리카노 주세요" 입력
00:07 - 봇 응답: "사이즈는?"
00:10 - "톨로요" 입력
00:12 - 봇 응답: "3,500원입니다. 주문하시겠어요?"
00:15 - "네" 입력
00:17 - 완료

총 시간: 17초

피드백:

  • "빠르고 쉬웠어요"
  • "말투가 좀 딱딱해요. 이모티콘이라도..."
  • 점수: 4/5

테스터 B (40대 남성, 기술 익숙하지 않음)

진행:

00:00 - 시작
00:15 - (아무것도 안 함)
00:20 - "어... 뭐라고 하지?"
00:30 - "주문하고 싶은데요" 입력
00:33 - 봇: "무엇을 주문하시겠어요?"
00:40 - "아메리카노" 입력
00:42 - 봇: "사이즈는?"
00:50 - "큰 거요" 입력
00:52 - 봇: "죄송합니다. 이해하지 못했어요"
01:00 - "???"
01:10 - "라지요!" 입력
01:12 - 봇: "죄송합니다..."
01:20 - (포기)

실패

피드백:

  • "어떻게 시작하는지 모르겠어요"
  • "큰 거라고 했는데 왜 못 알아들어요?"
  • "화나요"
  • 점수: 1/5

테스터 C (10대, 챗봇 경험 있음)

진행:

00:00 - 시작
00:02 - "ㅎㅇ" 입력
00:04 - 봇: "죄송합니다..."
00:06 - "안녕"
00:08 - 봇: "죄송합니다..."
00:10 - "아 진짜"
00:15 - "아메리카노"
00:17 - 봇: "사이즈는?"
00:20 - "벤티"
00:22 - 봇: "죄송합니다..."
00:25 - "아 짜증나"
00:30 - (포기)

실패

피드백:

  • "인사도 못 받아요?"
  • "벤티도 모르나요? 스타벅스 용어인데"
  • "불친절해요"
  • 점수: 1/5

문제점 발견!

🔴 심각:
- 시작 방법이 불명확 (테스터 B)
- 자연어 이해 부족 ("큰 거", "벤티")

🟡 중요:
- 인사 처리 안 됨 (테스터 C)
- 도움말/가이드 없음 (테스터 B, C)

🟢 개선:
- 말투 개선 (테스터 A)
- 이모티콘 추가 (테스터 A)

수정하고 재테스트

수정 사항

[변경 1] 시작 메시지 명확히
변경 전:
(아무 말 없음)

변경 후:
"안녕하세요! 주문 도와드릴게요 ☕
어떤 음료를 원하세요?
예: 아메리카노, 라떼, 카푸치노"

[변경 2] 자연어 이해 개선
추가 키워드:
- "큰 거" = 라지
- "벤티" = 라지
- "작은 거" = 스몰
- "보통" = 미디엄

[변경 3] 인사 처리
"안녕", "ㅎㅇ" 등 입력 시:
"안녕하세요! 😊
음료 주문 도와드릴까요?"

[변경 4] 이모티콘 추가
☕🥤😊✨ 등 적절히 사용

재테스트 결과

테스터 B (두 번째 시도):

00:00 - 시작
00:05 - 봇: "안녕하세요! 주문 도와드릴게요 ☕..."
00:08 - "아, 이제 알겠다"
00:12 - "아메리카노요"
00:14 - 봇: "사이즈는? (작은/보통/큰)"
00:18 - "큰 거요"
00:20 - 봇: "큰 사이즈 아메리카노! 4,000원이에요 ✨"
00:25 - "네"
00:27 - 완료!

성공! 점수: 4/5

테스터 C (두 번째 시도):

00:00 - "안녕"
00:02 - 봇: "안녕하세요! 😊 음료 주문 도와드릴까요?"
00:05 - "아메리카노"
00:07 - 봇: "사이즈는?"
00:10 - "벤티"
00:12 - 봇: "큰 사이즈! 좋은 선택이에요 ☕"
00:17 - 완료!

성공! 점수: 5/5

훨씬 나아졌죠?

원격 테스트 방법

직접 만날 수 없다면?

도구 활용

화면 녹화 요청:

  • Loom, OBS 등으로 녹화
  • 소리내어 생각하며 진행

화상 통화:

  • Zoom, Google Meet
  • 화면 공유하며 테스트

설문 도구:

  • Google Forms
  • Typeform
  • Notion

원격 테스트 가이드 보내기

안녕하세요! 테스트 부탁드립니다 😊

1. 이 링크를 클릭해주세요:
   [챗봇 링크]

2. 다음 미션을 수행해주세요:
   - 미션 1: [...]
   - 미션 2: [...]

3. 가능하다면 화면을 녹화해주세요
   (없어도 괜찮습니다)

4. 완료 후 이 설문지를 작성해주세요:
   [구글 폼 링크]

소요 시간: 약 10분
감사합니다!

베타 테스터 그룹 만들기

여러 명에게 지속적으로 테스트받기

모집

[베타 테스터 모집]

'맛집 추천 챗봇'의 베타 테스터를 찾습니다!

혜택:
- 정식 출시 시 프리미엄 무료
- 개발 과정 참여
- 이름을 크레딧에 기재

조건:
- 주 1회 테스트 (10분 정도)
- 솔직한 피드백

관심 있으시면 댓글이나 DM 주세요!

운영

디스코드/슬랙 채널:

#공지: 업데이트 안내
#테스트: 테스트 미션
#피드백: 의견 공유
#버그: 문제 보고

정기 설문:

  • 2주마다 만족도 조사
  • 주요 개선사항 투표

피드백 반영 우선순위

모든 피드백을 다 반영할 수는 없어요.

우선순위 매트릭스

        영향도 큼
            ↑
  [긴급]    |  [중요]
  즉시수정  |  계획하여수정
------------|------------
  [보류]    |  [고려]
  나중에    |  여유있으면
            ↓
        영향도 작음

예시:

[긴급] 주문 완료 안 됨 (버그)
→ 즉시 수정

[중요] 검색 정확도 낮음
→ 다음 주까지 수정

[고려] 이모티콘 더 추가
→ 다른 작업 끝나면

[보류] 음성 인식 기능
→ 차기 버전에서

다음 단계

다음 글에서는 챗봇을 블로그에 넣는 방법을 다룰 거예요.

만든 챗봇을 실제 웹사이트에 임베드하는 방법을 알려드릴게요!

마무리하며

테스트는 귀찮지만 꼭 필요해요. 혼자선 절대 못 찾는 문제들이 있거든요.

핵심은:

  1. 실제 사용자에게 테스트
  2. 관찰하고 경청하기
  3. 문제 분류하고 우선순위
  4. 수정 후 재테스트

완벽한 챗봇은 없어요. 하지만 계속 개선하는 챗봇은 있죠.

오늘 당장 친구 한 명에게 부탁해보세요. "5분만 이거 써봐줄래?"

그 5분이 여러분 챗봇을 10배 좋게 만들 거예요!


함께 읽으면 좋은 글:

  • [이전 편] 챗봇 성격·말투 설정
  • [다음 편] 챗봇을 블로그에 넣는 방법

테스트하면서 재미있었던 경험 있으신가요? 댓글로 나눠주세요!