보험 AI PDF 분석시 발생하는 환각 현상을 최소화 하기위해 중간 Human Input을 통해 환각 최소화 할 수 있는 분석 툴을 개발중입니다.
안녕하세요, 차앙미니 입니다.
과거 구글 API를 통한 개발물을 공유드렸었는데요,
7. 구글 AI 제미나이 API로 보험 약관에서 필요한 계리 실무 정보 추출하기
구글 AI 제미나이 API를 활용해 보험 약관에서 필요한 정보를 자동 추출하는 방법을 소개합니다. 계리 실무 모델링에 유용한 활용법을 알려드립니다. 안녕하세요, AI 차앙미니입니
changminiai.tistory.com
많이들 AI를 가지고 분석을 할때 경험하는 환각, Hallucation이 큰 문제가 되어 돌아옵니다. 저한테도 마찬가지이구요.
이러한 문제점을 해결할 수 있는건, Human-in-the-Loop 접근 입니다.
AI 기반 PDF 분석에서의 환각 현상과 Human-in-the-Loop 접근의 필요성
LLM의 구조적 특성과 환각의 불가피성
AI 환각은 단순한 오류가 아니라, 대규모 언어모델(LLM: Large Language Model)의 근본적인 작동 방식에서 기인합니다. LLM은 인간처럼 사고하거나 문서 구조를 이해하는 방식으로 작동하지 않습니다. 대신, 방대한 텍스트 데이터를 학습하여 주어진 문맥에서 “다음에 올 가장 그럴듯한 단어”를 확률적으로 예측하는 구조를 갖습니다. 이 때문에 문맥이 불완전하거나 입력 정보가 과도하게 축약된 경우, LLM은 그럴듯하지만 사실이 아닌 정보를 생성해내는 경향이 있습니다.
특히 PDF 문서 분석과 같이 구조적 정보가 풍부하고, 내용이 수십~수백 페이지에 이르는 경우, LLM은 제한된 컨텍스트 윈도우 내에서만 정보를 이해하고 응답하게 됩니다. 이로 인해, 질문과 직접 관련 없는 내용을 바탕으로 모델이 내용을 “추측”하거나 “지어내는” 현상, 즉 환각이 불가피하게 발생하는 것입니다.
Human-in-the-Loop 기반 환각 최소화 UX 설계
이러한 구조적 한계를 극복하기 위해, 단순 자동화가 아닌 사용자 참여 기반의 단계적 입력(Human-in-the-Loop UX 설계) 방식이 필요합니다. 구체적으로는 다음과 같은 3단계 절차를 통해 환각을 실질적으로 줄일 수 있습니다:
- 페이지 단위 키워드 또는 요약 정보 사전 제공
LLM이 전체 PDF 문서를 처리하기 전에, 각 페이지별 요약 또는 키워드를 미리 생성하여 사용자에게 제공합니다. 이를 통해 사용자는 문서의 전반적 구조를 빠르게 파악할 수 있습니다. - 사용자 기반의 관련 페이지 선별
사용자는 자신이 알고자 하는 내용과 관련된 페이지를 선택하게 되며, 이로써 모델이 처리해야 할 정보의 범위가 좁아집니다. 이는 문맥 혼선을 줄이고, 정보 정확도를 높이는 데 기여합니다. - 선택된 페이지만을 대상으로 한 집중 AI 분석
이후 AI는 사용자에 의해 선별된 페이지에 대해서만 분석을 수행하게 되며, 이때 문맥은 보다 명확하고, 관련성이 높아져 환각의 가능성은 현저히 줄어듭니다.
결론: 인간-기계 협업 기반의 정보 추출 시스템으로의 진화
이러한 접근은 단순히 모델의 응답 품질을 높이는 데 그치지 않습니다. 사용자의 직관적 판단과 AI의 계산 능력을 결합한 하이브리드 시스템으로서, 고정확도 기반의 문서 해석이 요구되는 계약 분석, 정책 검토, 금융 보고서 분석 등의 분야에서 특히 유효합니다.
AI는 강력하지만 맥락에 따라 불완전하며, 인간은 문맥에 민감하지만 반복 작업에 취약합니다. 따라서 앞으로의 PDF 분석 도구는 "AI 중심 자동화"에서 "인간 중심 조율"로의 전환을 통해, 더 신뢰도 높은 결과를 도출할 수 있을 것입니다.
Human-in-the-Loop 적용 & 응용
이러한 기술을 적용하여, 커서를 통한 Vibe Coding으로 보험 Analysis Tool을 개발하여 보았습니다.
1단계) 분석 요청사항 입력
1단계에서는 PDF를 업로드하고, 질문을 입력합니다.
예시를위해 보험업계에 배포된 K-ICS 해설서를 넣은뒤, 요구자본의 정의에 대해 물어보도록 하겠습니다.
2단계) 관련성 있는 페이지만 선별
1단계 과정을 지나 2단계에서는, 질문에 대한 답을 가진 페이지가 1개만 있는 것을 볼 수가 있습니다.
1.) 페이지별 관련도
2.) 페이지별 요약
을 제공하게 하였습니다.
페이지 이미지 우측상단의 확대 버튼을 누르면 PDF페이지에 적힌 내용이 무엇인지도 확인할 수 있어 내용에 대한 휴먼 검증이 들어갈 수 있습니다.
관련 페이지를 선택 후, 선택된 페이지만으로 최종 분석 실행 을 눌러줍니다. 여러가지 관련 페이지가 있을 경우, 여러가지의 페이지를 복수 선택할 수 있습니다.
3단계) 선별된 페이지만을 활용해 PDF 재분석
3단계에서는 선택한 페이지만을 활용해 프롬프트 분석 요청사항을 재분석합니다.
결론
Human-in-the-Loop을 적용한 결과,
- 한꺼번에 광활한 범위의 PDF를 전체 처리하는 것이 아닌,
- 중간단계에서 관련성 높은 PDF 페이지들을 AI가 제공하고,
- 그 중 원하는 정보가 들어간 페이지들을 사람이 선별한 후,
- 선별한 페이지만을 AI 재분석 함으로서 답변의 정확도가 올라갑니다.
Vibe-Coding의 힘은 강력합니다. 불가능을 가능케하는 힘을 부여하는 AI입니다.
감사합니다,
이창민 드림
'누구나 AI로 쉽게 따라하는 AI 프로젝트 > 차앙미니 프로젝트 - 보험계리 AI 챗봇' 카테고리의 다른 글
7. 구글 AI 제미나이 API로 보험 약관에서 필요한 계리 실무 정보 추출하기 (1) | 2025.03.21 |
---|---|
6. 한국 보험 계리사 계리 업무 실무 AI 활용 인공지능 PDF 문서 RAG AI 챗GPT (Feat. Cursor, OpenAI, Pinecone, Streamlit) (1) | 2025.02.12 |
5. 보험 계리 실무 AI 프로젝트 재개 & 정보 공유 웹페이지 개설 (0) | 2025.02.06 |
4. 보험계리 AI 프로젝트 중단 (0) | 2024.12.23 |
3. Perplexity AI Agent를 통해 보험계리 문제 풀이 (3) | 2024.11.01 |