특허 정보를 자동으로 추출해보자: Make AI + BigQuery + GPT 조합기
소개
16기 롱폼 자동화를 수강 중입니다. 롱폼 콘텐츠 제작을 자동화하기 위해서는 다양한 정보가 필요했고, 그 중 "최신 특허 정보"가 중요한 데이터 중 하나였습니다. 그래서 첫 단계로, 구글 특허에서 최신 데이터를 자동으로 추출하는 흐름을 구축해보기로 했습니다.
진행 방법
사용한 도구들
💡 Make AI: 전체 자동화 플로우를 구성하는 메인 플랫폼
📊 BigQuery: 구글 특허 데이터 쿼리용
🤖 GPT 4o & Gemini 2.0 Flash: 프롬프트 작성, 흐름 디버깅
📋 Airtable: 추출된 정보 정리 및 저장용
전체 흐름 요약
BigQuery를 통해 Tesla 관련 최신 미국 특허 1건을 검색
publication_number를 활용해 Google Patents의 전체 텍스트 페이지 URL 생성
해당 페이지에서 출원번호, 청구항, 명세서 추출
Airtable에 자동 정리
BigQuery 예시 쿼리
WITH latest AS (
SELECT publication_number
FROM `patents-public-data.patents.publications`
WHERE country_code = 'US'
AND EXISTS (
SELECT 1
FROM UNNEST(assignee_harmonized) ah
WHERE LOWER(ah.name) LIKE '%tesla%'
)
ORDER BY publication_date DESC
LIMIT 1
)
SELECT
CONCAT(
'https://patents.google.com/patent/',
'US',
SUBSTR(REPLACE(publication_number, '-', ''), 3, 4),
LPAD(
REGEXP_EXTRACT(REPLACE(publication_number, '-', ''), r'^US\d{4}(\d{1,7})'),
7,
'0'
),
REGEXP_EXTRACT(publication_number, r'[A-Z]\d$'),
'/en?oq=',
REPLACE(publication_number, '-', '')
) AS fulltext_url,
REPLACE(publication_number, '-', '') AS oq_number,
publication_number
FROM latest;
GPT 사용 방식
GPT 4o를 통해 쿼리 작성 피드백 및 디버깅을 반복하며 흐름 개선
Gemini 2.0 Flash를 통해 긴 텍스트에 강한 요약/청구항 분리 작업 수행
프롬프트 설계는 상황에 따라 직접 작성하며 개선함
결과와 배운 점
Airtable에 다음 정보가 자동으로 정리됨:
출원번호
청구항
명세서
Make AI를 실전에서 처음 제대로 사용해봤는데, 각 모듈을 연결하며 구조를 이해하는 데 시간이 걸렸습니다. 하지만 GPT를 적극 활용하며 디버깅하고 나니, 자동화가 정말 강력한 도구라는 걸 체감했어요.
BigQuery에서 데이터를 정제하고 URL을 조합하는 과정도 흥미로웠고, 문서 구조나 숫자 포맷 처리 등 세세한 부분에서 시행착오가 있었습니다.
Airtable 역시 생각보다 강력한 정리 도구였고, 필드를 나누는 과정에서 정보 구조에 대한 감각도 생겼습니다.
도움 받은 글 (옵션)
chatGPT에게 정말 많은 도움을 받았습니다! 오류 상황에서 무엇이 잘못됐는지 질문하면서 하나씩 해결할 수 있었습니다 🙌