프로젝트

· 프로젝트
fine-tunnig결과 성능이 저조한 커스텀 모델 대신 easyOCR 기본 모델을 사용하기로 했습니다. 기본 모델의 글자 인식 및 추출 능력은 우수했으나 한 가지 문제가 있었는데, 가로 줄 단위로 글자를 인식하다보니 어떤 단어가 줄 바꿈으로 떨어지면 각각 다른 단어가 되버렸습니다. import easyocr from PIL import Image, ImageDraw img_path = './cosmetics_00026_crop.jpg' reader = easyocr.Reader(['ko','en'], gpu=False) detected_result = reader.detect(img_path) # Load the image img = Image.open(img_path) # Create an Image..
· 프로젝트
로컬 훈련 우선 대여받은 노트북에 CUDA개발환경을 셋팅했습니다. 노트북의 gpu는 RTX 3050이었고, 열심히 검색하며 구축한 CUDA 개발 환경은 다음과 같습니다. python 3.9 / CUDA Toolkit 11.3 / cuDNN v8.9.0 설치한 pytorch 버전과 라이브러리입니다. conda install pytorch==1.12.1 torchvision==0.13.1 torchaudio==0.12.1 cudatoolkit=11.3 -c pytorch 총 4번의 훈련을 진행했고 저장공간의 한계로 데이터를 미리 만들어 놓지 않고 매 훈련마다 train lmdb와 validation lmdb를 만들었습니다. AIhub의 이미지들에서 필요한 부분만 크롭하고, 미처 코드로 걸러내지 못한 필요없는..
· 프로젝트
easyOCR을 fine-tunning하는 방법은 다양한 블로그에 잘 설명되어있었습니다. 주로 참고한 블로그는 다음과 같습니다 EasyOCR과 OpenCV를 이용한 광학식문자인식기술 프로젝트 스타트10팀 velog.io EasyOCR 사용자 모델 학습하기 (4) - 모델 학습 신경망 모델 학습하기에 앞서 학습에 필요한 학습데이터 생성 및 변환 등에 대한 내용은 이전 포스트를 참고하기 바란다. [Development/OCR] - EasyOCR 사용자 모델 학습하기 (1) - 시작하기 전에 [Developme davelogs.tistory.com 네이버 deep-text-recognition 모델을 custom data로 학습 & 아키텍쳐 분석 작성자 : 한양대학원 융합로봇시스템학과 유승환 석사과정 (CAI..
· 프로젝트
OCR은 광학 문자 인식(Optical character recognition)으로, 이미지에서 문자를 추출해 컴퓨터에서 편집가능한 문자 형식으로 변환하는 것입니다. OCR 관련 논문과 여러 모델들을 찾아보며 알게된 사실이 있습니다. 바로 OCR은 Detection 모델과 Recognition 모델이 결합한 모델이라는 것입니다. 저희는 대표적인 오픈소스 모델인 tesseract, PaddleOCR, EasyOCR을 비교해보았습니다. 이들을 같은 사진으로 여러번 비교해본 결과, EasyOCR이 가장 정확하게 변환했고 EasyOCR을 fine-tunning하기로 결정했습니다. 모델에 대한 설명은 생략하겠습니다. easyocr을 훈련시키는 방법을 찾아봤더니 대부분 네이버 ClovaAI에서 제공하는 deep-t..
· 프로젝트
2023년 1월부터 6월까지 디지털스마트부산아카데미(DSBA)에서 3, 4월 동안 진행한 예비프로젝트에 대해 이제야 정리해봅니다. 우리 팀은 AI프로젝트 주제로 헬스케어가 주어졌습니다. 그래서 어떤 서비스를 만들지 팀원들과 찾고 열띤 토론을 했습니다. 저희는 '혼자서 할 수 있는 헬스케어'를 서비스 방향으로 정했습니다. 러닝 자세교정 서비스 노래로하는 심리치료 피부타입별 화장품 성분에 따른 추천 서비스 여러 아이디어 중 이 세가지로 좁혀졌고 각각 적용될 AI모델이 뭔지, 그리고 필요한 데이터를 구할수 있는지, 또 데이터 양은 충분히 많은지 하나씩 조사했습니다. 러닝 자세교정 서비스는 사용자가 뛰는 영상이 AI의 input데이터인데, 문제는 전면, 측면 영상이 필요하지만 혼자서 찍기어렵다는 것이었습니다. ..
· 프로젝트
CNN(합성곱 신경망)을 배우고 어디써먹을까 생각해보다가 간단히 분류만 해보기로 했다. 요새 뉴진스의 omg에 빠져 뉴진스 멤버들을 분류해보기로 했다. anaconda에서 실행했으며 tensorflow 2.8.2 버전을 사용했다. 먼저 구글링으로 찾은 아래의 웹크롤링 코드로 뉴진스 멤버별 셀카를 13장씩 긁어모았다. 이 코드를 실행하려면 selenium 패키지를 설치하고 chrome driver를 다운받아야 한다. 그래야 webdriver.Chrome(chrome_xxx_ driver.exe파일이 있는 경로)를 실행할수 있다. 폴더 구조는 data폴더 안에 멤버별로 폴더가 있고 그 안에 해당 멤버의 사진이 들어가는 구조다. from selenium import webdriver from selenium...
siwoli
'프로젝트' 카테고리의 글 목록