IntroJsoup은 HTML 파싱을 위한 Java 라이브러리로, 웹페이지의 HTML을 가져와 파싱하고 조작할 수 있다. CSS 셀렉터를 이용해 원하는 요소를 선택할 수 있어서, 웹 스크래핑과 같은 작업에 유용하다.이전 글에서 이미지 파일을 대상으로 OCR 하는 방법에 대해 알아보았는데, 이번에는 OCR의 대상이 되는 이미지를 직접 웹페이지에서 찾아오는 방법을 알아보도록 한다.실습jsoup 추가gradleimplementation 'org.jsoup:jsoup:1.15.3'maven org.jsoup jsoup 1.15.3HTTP요청간단하게 http 요청으로 웹페이지의 응답을 받아오는 예시를 작성해보겠다.JDK 11 에서부터는 java.net.http.HttpClient가 생겨서 그나마 ..
Programming/Java 49
Intro자바를 사용해 코드를 작성하다보면 static 키워드를 자주 마주하게 된다.하지만 이 키워드가 적절하지 않게 사용되는 경우가 종종 있는데, 이번 글에서는 static 키워드의 개념과, 언제 어떻게 사용해야 하는지 예제 코드를 통해 자세히 알아보겠다.static자바에서 static 키워드는 클래스의 멤버(변수나 메서드)를 클래스 레벨로 정의할 때 사용된다. 일반적인 클래스의 변수나 메서드는 인스턴스를 생성한 뒤에 접근할 수 있지만, static 키워드를 사용하면 클래스 인스턴스 없이도 해당 멤버에 접근할 수 있다.간단히 말해, static 멤버는 클래스 자체에 속해 있으므로 여러 인스턴스가 공유하는 특징을 갖는다. 인스턴스가 여러 개여도 static 변수는 딱 하나만 존재하고, 이를 모든 인스턴스..
Intro코드를 작성하다 보면 SQL 쿼리나 JSON과 같은 긴 문자열을 사용해야 할 때가 많다. 기존에는 여러 줄의 문자열을 표현하려면 줄마다 문자열을 따로 작성하거나, 줄바꿈을 위해 \n과 같은 이스케이프 문자를 일일이 추가해야 해서 불편함이 있었다.이번 글에서는 Java 13부터 도입된 새로운 기능인 텍스트 블록 (Text Blocks) 에 대해 다룬다. 텍스트 블록은 멀티라인 문자열을 보다 간편하게 작성할 수 있는 기능으로, 가독성을 높이고 실수를 줄일 수 있는 여러 장점이 있다.멀티라인 문자열 처리Old Java이전까지 Java에서 멀티라인 문자열을 처리하는 것은 다소 번거로운 작업이었다. 예를 들어, SQL 쿼리를 작성해야 한다고 생각해 보자.String sql = "SELECT id, nam..
Intro최근에 점심 도시락 메뉴가 종종 궁금한데 확인하러 일일히 들어가는 건 번거로워서 슬랙 봇을 만들까 생각을 했다.점심 도시락 업체에서는 메뉴를 이미지로 웹사이트에 게시하고 있었고, 이 이미지를 가져오면 되는데, 이왕 하는 김에 텍스트로 변환까지 하면 더 좋겠단 생각이 들었다. 이를 위해 OCR(Optical Character Recognition) 기술을 활용했고, 그 과정에서 얻은 경험을 공유하려고 한다.OCR은 이미지나 PDF에 포함된 텍스트를 기계가 인식하여 디지털 텍스트로 변환하는 기술이다. 스캔된 문서, 사진 속 텍스트 등을 데이터로 활용할 수 있게 해주며, 문서 디지털화, 자동 번역, 데이터 입력 자동화 등 다양한 분야에서 활용되고 있다.TesseractTesseract는 HP에서 아주..
Intro컬렉션을 사용할 때, 특히 중복을 허용하지 않는 Set을 사용할 경우, 우리는 보통 사용하는 클래스의 equals와 hashCode만 올바르게 오버라이드하면 된다고 생각한다. HashMap에서는 그랬을지 몰라도 TreeSet을 사용할 때는 상황이 조금 달라진다.TreeSet은 내부적으로 요소를 정렬하는 과정에서 compareTo 메서드를 사용하는데, 이를 간과하면 문제가 발생할 수 있다. compareTo 메서드는 단순히 정렬만을 위한 것이 아니라, 중복을 체크하는 데도 사용되기 때문이다.이 글에서는 TreeSet에 집어넣는 클래스의 equals, hashCode 뿐만아니라 compareTo에 대해서도 신경 써야 하는 이유에 대해 살펴본다.문제 상황TreeSet은 삽입된 데이터를 자동으로 정렬하..