ONE STEP AWAY
OCR 문서변환 ver.2 기능추가 본문
기존 워크플로우 소개
1-1. 기존 ver.1 워크플로우 [ 구글Drive - Solar OCR - Slack 발송]

1-2. 인풋 데이터 예시 (도서표지 이미지)

1-3. 아웃풋 데이터 예시 (슬랙 메시지)

추가된 기능을 소개합니다.
- 기존 Solar OCR 단일 모델에서 2개 모델 추가
- GTP 4.0 mini, Solar OCR, Gemini 2.5 flash 3개의 모델이 텍스트를 추출
- 결과를 통합하여 평가하는 모델 추가, 리포트 생성 GPT 4.0 mini
- 기존 슬랙 메시지 발송에서 Gmail 발송으로 변경
2-1. ver2. 워크플로우 [구글 Drive - GPT, Solar, Gemini - GPT 평가 - Gmail 발송 ]

2-2. 인풋 데이터 예시 약제봉투일때 - 아웃풋 데이터 (gmail 발송내역)



- GPT는 개인정보 보안 제한으로 인해서 왠만한 내용은 모두 출력을 하지 않길래 제한이 좀 덜하다는 gpt mini 모델을 사용하였다.
- Solar는 upstage에서 만든 한국어에 특화된 LLM 모델로 Solar OCR 이라는 노드가 있어서 'only text' 추출 기능 노드를 사용하였다.
- gpt와 gemini처럼 프롬프트를 입력할 수 있는 solar chat 이라는 노드를 사용하지 않았기 때문에 평가 점수에서 감안하여야 한다.
- gemini는 개인정보 뭐 그런건 상관없이 모두 출력해낸다. 차이점은 이미지의 상단, 하단, 좌우측 등 위치별로 상세하게 출력한다는 점이다.
2-3. 인풋 데이터 예시 도서 표지일때 - 아웃풋 데이터 (gmail 발송내역)


- 3개 모델을 평가하는 모델은 gpt 4.0 을 사용하였다.
- 성능 평가 지표는 유창성, 정확도, 매락이해도, 토큰갯수 등등을 고려하였으나 간단 버전( 점수, 한문장 요약)으로 자연어로 프롬프팅하였다.
- 현시점(ver2) 동일 데이터임에도 실행할 때마다 다른 결과가 나와 재현성이 떨어지는 상태이다.
- 추후 프롬프팅 업데이트, 파인튜닝, RAG 등의 기법을 적용하고 풍부한 인풋 데이터와 함께 구체적인 샷 예시를 제공한다면 성능이 더욱 개선될 것이다.
3. 유튜브 시연 영상 보기
'n8n 자동화 워크플로우 > OCR 문서변환' 카테고리의 다른 글
| OCR 문서변환 (0) | 2025.12.01 |
|---|