ONE STEP AWAY

OCR 문서변환 ver.2 기능추가 본문

n8n 자동화 워크플로우/OCR 문서변환

OCR 문서변환 ver.2 기능추가

jeong0722 2025. 12. 8. 15:06

기존 워크플로우 소개 

 

1-1. 기존 ver.1 워크플로우 [ 구글Drive - Solar OCR - Slack 발송] 

 

1-2. 인풋 데이터 예시 (도서표지 이미지)

 

1-3. 아웃풋 데이터 예시 (슬랙 메시지)

 

 


추가된 기능을 소개합니다. 

 

- 기존 Solar OCR 단일 모델에서 2개 모델 추가 

- GTP 4.0 mini, Solar OCR, Gemini 2.5 flash 3개의 모델이 텍스트를 추출

- 결과를 통합하여 평가하는 모델 추가, 리포트 생성 GPT 4.0 mini 

- 기존 슬랙 메시지 발송에서 Gmail 발송으로 변경 

 

2-1. ver2. 워크플로우 [구글 Drive - GPT, Solar, Gemini - GPT 평가 - Gmail 발송 ] 

 

 

2-2. 인풋 데이터 예시 약제봉투일때  - 아웃풋 데이터 (gmail 발송내역)

 

- GPT는 개인정보 보안 제한으로 인해서 왠만한 내용은 모두 출력을 하지 않길래 제한이 좀 덜하다는 gpt mini 모델을 사용하였다. 

- Solar는 upstage에서 만든 한국어에 특화된 LLM 모델로 Solar OCR 이라는 노드가 있어서 'only text' 추출 기능 노드를 사용하였다. 

- gpt와 gemini처럼 프롬프트를 입력할 수 있는 solar chat 이라는 노드를 사용하지 않았기 때문에 평가 점수에서 감안하여야 한다. 

- gemini는 개인정보 뭐 그런건 상관없이 모두 출력해낸다. 차이점은 이미지의 상단, 하단, 좌우측 등 위치별로 상세하게 출력한다는 점이다. 

 

 

2-3. 인풋 데이터 예시 도서 표지일때  - 아웃풋 데이터 (gmail 발송내역)


- 3개 모델을 평가하는 모델은 gpt 4.0 을 사용하였다. 

- 성능 평가 지표는 유창성, 정확도, 매락이해도, 토큰갯수 등등을 고려하였으나 간단 버전( 점수, 한문장 요약)으로 자연어로 프롬프팅하였다. 

- 현시점(ver2) 동일 데이터임에도 실행할 때마다 다른 결과가 나와 재현성이 떨어지는 상태이다. 

- 추후 프롬프팅 업데이트, 파인튜닝, RAG 등의 기법을 적용하고 풍부한 인풋 데이터와 함께 구체적인 샷 예시를 제공한다면 성능이 더욱 개선될 것이다. 

 

3. 유튜브 시연 영상 보기 

ver.1  (https://www.youtube.com/watch?v=sradSejcFok)

ver2.  (https://www.youtube.com/watch?v=I7RMLHtbQv8)

'n8n 자동화 워크플로우 > OCR 문서변환' 카테고리의 다른 글

OCR 문서변환  (0) 2025.12.01