정보 보안 관련 텍스트 분석하기(LDA와 의미연결망 분석)

이번에는 비정형 데이터를 가지고 토픽모델링을 하고, 토픽별로 어떤관계가 있는지를 chatgpt 도움을 받아서 진행해 보았습니다.

저는 주로 재무 정보만 활용했기 때문에 자연어 처리하는 방법은 잘 모른다고 생각하고 과정을 물어보며 순차적으로 작업을 진행했습니다.

자세한 내용은 챗 내용으로 설명드리겠습니다.

https://chat.openai.com/share/731049bc-b8ca-44d4-9260-b1cd0ee4aae6

https://chat.openai.com/share/6058c174-beef-4f1b-a0a6-6baebdf11747

진행하면 몇가지 고려하면 좋을 사항은 아래에 적도록 하겠습니다.


  1. max 토큰을 넘으면 오류가 나서 추가 분석이 안될 수 있습니다. 그럴때는 결과를 export해서 새로운 ADA 챗에 넣어서 진행하니 해결되었습니다.

  2. 전처리가 완벽하지는 않으니 샘플을 꼭 보여달라고 해서 추가 작업을 하셔야 합니다.

  3. 한글의 경우 형태소 분석에 필요한 작업이 되지 않습니다.

  4. 한글로는 시각화가 되지 않으니 영어로 번역해서 시각화해달라고 하면 됩니다.

  5. 시각화가 전문 시각화 툴보다는 이쁘게 그리기가 쉽지 않습니다. 그럴때 시각화 툴에서 활용할 수 있는 파일로 export 해달라고 하면 됩니다.

1
1개의 답글

👉 이 게시글도 읽어보세요