허깅페이스에 공개된 트루벤치 사이트 메인 화면. [사진=삼성전자]
허깅페이스에 공개된 트루벤치 사이트 메인 화면. [사진=삼성전자]

【뉴스퀘스트=김어진 기자】 삼성전자는 자체 개발한 인공지능(AI) 업무 생산성 벤치마크 ‘트루벤치’를 공개했다고 25일 밝혔다.

트루벤치는 삼성전자 DX(디바이스경험)부문 선행 연구개발조직인 삼성리서치가 사내 생성형 AI 모델 적용 경험으로 개발했다.

시중에 공개된 AI 벤치마크는 대부분 영어를 중심으로 하며, 한번이나 제한된 횟수로 대화를 평가해 점수를 매긴다.

트루벤치는 업무 생산성 성능을 더욱 정확히 측정할 수 있도록 콘텐츠 생성, 데이터 분석, 문서 요약·번역, 연속 대화 등 실제 기업 업무를 기반으로 평가 항목을 구성했다. 10개 카테고리, 46개 업무, 2485개의 세분화된 항목으로 구성되어 있다.

사용자는 한번에 최대 5개 모델을 선택해 비교할 수 있다. 전체 평가 점수뿐만 아니라 10개 카테고리에 대한 세부 항목별 점수도 공개해 기존 벤치마크보다 세밀한 평가 결과를 확인할 수 있다.

또한 트루벤치는 영어·한국어·일본어·중국어·스페인어 등 총 12개 언어를 지원한다. 특히 글로벌 비즈니스 환경을 고려해 영어와 한국어 등 여러 언어가 혼합된 교차 언어의 번역 기능 평가도 가능하다.

평가 항목을 검증하는 방식에는 AI를 활용했다. 트루벤치는 사람이 구축한 평가 기준을 AI가 검토해 오류나 모순, 불필요한 제약이 없는지 확인하며 교차 검증을 반복해 평가 기준을 정교하게 완성했다.

이러한 기준으로 완성된 AI 모델 자동 평가는 주관적 편향을 최소화하고 일관성 있는 결과를 제공한다.

트루벤치의 데이터 샘플과 AI 모델들의 평가 결과가 표시된 리더보드는 글로벌 오픈소스 플랫폼 허깅페이스에서 확인할 수 있다.

전경훈 DX부문 최고기술책임자(CTO) 겸 삼성리서치장(사장)은 “삼성 리서치는 다양한 실제 적용 사례를 바탕으로 차별화된 생산성 AI 기술 경쟁력과 노하우를 보유하고 있다”며 “트루벤치 공개를 통해 생산성 성능 평가 기준을 정립하고 삼성전자의 기술 리더십을 더욱 공고히 할 것”이라고 말했다.

<세상을 보는 바른 눈 '뉴스퀘스트'>

저작권자 © 뉴스퀘스트 무단전재 및 재배포 금지