jj - LLM 으로 코드를 작성 할 경우 코드의 신뢰도를 높이는 방법.

1.

GPT 류 LLM(Large Language Model) 의 특성상 학습에 사용된 데이터가 많을수록 신뢰도 높은 답변을 줍니다.


2.

즉, 내가 LLM 을 사용해 작성할 코드가 웹상에 퍼져있는 데이터가 많은 분야여야만합니다.



3.

LLM 으로 코드를 작성해볼때 적합한 프로그래밍 언어는 무엇일까요?

위의 접근에 따르면 “웹상에 코드가 가장 많이 퍼져있는 프로그래밍 언어”가 좋습니다.


웹상에 소스코드가 가장 많이 올라와있는 공간은 어디일까요?

대부분이 아실것같은데 Github.com 사이트 입니다 ㅎ


과연 깃허브에서는 어느언어가 가장 널리 쓰일까요?





4.

https://octoverse.github.com/2022/top-programming-languages

깃허브에서 공식으로 연간으로 보고서를 내줍니다.


top-programming-languages 란에 이 정보가 들어있습니다.

가장 인기가 많은 언어는 Javascript 네요.


위에서 이 순서대로 이야기해보면, 시중에 나온 LLM 코드 작성 툴은

Javascript, Python, Java 코드에 대한 코드 작성을 잘 해줄 확률이 높습니다.


코드 번역은 상대적으로 더 쉬울테니(문법적으로 1:1 매칭이 가능하기때문이고, 잘못 변환해주어도 개발자가 직접 바꾸기에 크게 어렵지않음.)
만약에 원하는 코드가 Ruby 코드인경우, 일단 LLM에게 Python 로 코드를 짜달라고한뒤 그 코드를 Ruby 로 변환해달라고하는것이(또는 코드를 개발자 본인이 직접 번역하는것이) 더 퀄리티가 높습니다.





5.

인상적인 부분은 년도에 따라 순위가 크게 바뀌는 언어들이 있습니다.

“최신” 기술의발전을 반영한 코드 관점에서는

과거에 데이터가 많았다가 순위가 내려가고있는 PHP, Ruby 에서는

데이터의 규모가 과거 2014~2017년에 쓰여진 코드들이 많을수있기때문에, 그것을 LLM 이 다 학습했을경우

과거의 스타일로 코드를 짜줄 확률이 높습니다.


다만 여기에서는 온라인상에 올라간 코드의 총량이 증가하는 부분도 생각해야합니다.

2017년 작성된 코드의 총량보다, 2022년 작성된 코드의 총량이 압도적으로 많습니다.

2017년 4위인 PHP 가 2022년 7위라고해도, 2022년의 PHP 코드절대량 > 2017년 PHP 코드 절대량 일 수 있습니다.





6.

최근에 파이썬의 상위호환 언어도 나왔다고합니다.

mojo라고 하는데 오늘 제가 재직중인 회사 mlops 팀에서도 mojo 에 대한 언급이 있었네요.

https://www.modular.com/mojo


AI 관련 개발에서 python 이 가장 언어로 인기도가 높은데 python 최대의 단점은 “속도” 입니다.

mojo는 이 부분에서 python 의 장점은 가져가지만, 속도를 큰 폭으로 개선하는 가치를 제공한다고합니다.


왜 이야기를 꺼냈을까요?

mojo 같은 신생언어는 “절대로” LLM 같은 류에게 코드를 짜달라고할때 좋은 퀄리티의 코드를 가져갈수없습니다.

신생 언어라서 데이터가 턱없이 부족하기때문이죠.






7.

LLM 류를 사용해서 작성한 코드의 신뢰도를 높이는 방법?

→ 웹상에 데이터가 많이 퍼져있는 javascript, python, java, typescript, C# 등을 사용해서 코드를 작성해달라고 프롬프트를 요청하세요.

웹상에 많이 퍼져있는 프레임워크도(예를들어 자바에서 웹개발 코드 만들거면 스프링) 다룰려고햇는데 시간상 생략합니다~


끝.




3
2개의 답글

뉴스레터 무료 구독

👉 이 게시글도 읽어보세요