[세계비즈=황지혜 기자] 한국 시스트란(대표 김유석)은 올해 6월 주력 제품인 시스트란 모델 스튜디오에 학습 메인테이너(Training Maintainer)기능을 적용해 기계 번역 모델을 만드는 사용자의 편의성을 고도화했다고 14일 밝혔다.
업체에 따르면 그간 시스트란은 일반 기업이나 개인에게 번역 모델 학습 전용 플랫폼인 시스트란 모델 스튜디오를 제공했다. 이를 통해 고객이 축적한 학습 데이터를 시스트란의 기본 번역 모델에 적용해 손쉽게 특화 번역 모델을 만들 수 있도록 지원해 왔다.
수억 개의 언어 학습 데이터를 기반으로 생성된 시스트란의 기본 번역 모델을 바탕으로 사용자는 자신이 소유한 소규모 데이터를 적용하여 고객의 Needs가 반영된 번역 모델을 생성할 수 있고 시스트란과 공동 판매하여 수익을 배분해 왔다. 특히 생성된 고객의 번역 모델의 소유권은 사용자에게 귀속돼 소유권 분쟁을 원천적으로 없앤 혁신적 비즈니스 모델로 평가받아 왔다는 것이 업체 측 설명이다.
이번에 시스트란 모델 스튜디오에 통합된 학습 메인테이너는 학습 전략 수립, 능동적 학습 현황 모니터링, 학습 데이터 필터링, 동적 데이터 증강 등의 기능을 제공해 최적화된 학습 모델을 구축할 수 있도록 해주는 기능이다.
능동적 학습 상태 모니터링 기능은 단순 번역 모델 학습을 벗어나 학습 전략에 기반한 다수 모델을 동시 학습시킬 뿐만 아니라 학습 실패에 대한 자동 모니터링을 통해 학습 자동 재시작을 지원해 모델 구축의 안정성 및 지속성을 한층 높였다고 업체 측은 전했다.
학습 데이터 필터링 기능은 Language Model, Model Score 등을 기반으로 자동 데이터 필터링을 제공함으로써 학습 데이터에서 학습에 불리한 노이즈를 제거한다. 또한 동적 데이터 자동 증강 기능은 모노 코퍼스만으로도 학습 데이터의 양을 늘려 일정 범위 안에서의 모델 성능을 높일 수 있도록 해준다.
시스트란 지용훈 개발리더는 “기계 번역 모델의 성능 고도화를 위해서는 핵심 학습 알고리즘도 중요하지만 모델 학습을 위한 다양한 프로세스(전처리, 후처리 등)가 필요하다. 이에 시스트란은 모델 스튜디오, 학습 메인테이너를 제공함으로써 최적의 번역 모델을 구축하는데 필요한 수많은 프로세스를 자동화하고 통합했다”고 전했다.
이어 “이런 점에서 시스트란은 고객들이 최적의 번역 모델을 구축하도록 만드는 독자적이며 차별화된 플랫폼과 방법론을 가진 업체다. 향후 업계 기술력을 선도해 나가겠다”고 밝혔다.
한편 시스트란은 글로벌 기계번역 시장에서 50년 이상의 업력을 보유한 기술 전문기업으로 스틱인베스트먼트, 소프트뱅크코리아, 한국투자파트너스, 한국투자증권이 2020년 6월 경영권을 인수했다. 시스트란은 웹 기반 번역 포털 출시, 기업 및 공공 기관을 위한 인공지능과 신경망을 결합한신경망 번역엔진 등을 출시했다.
또한 비즈니스 사용자들에게 글로벌 협업, 다국어 콘텐츠 생성, 글로벌 고객 지원, 빅데이터 분석, 전자 상거래 등의 다양한 영역에서 맞춤형 기계번역 솔루션 및 서비스를 제공하고 있다. 특히 시스트란에서 제공하는 내부 구축형(On-Premise) 기계번역 솔루션은 데이터 보안성을 보장하고 기존 또는 타사 애플리케이션 및 IT 인프라와의 원활한 통합과 유연한 확장성을 지원하는 아키텍처로 구성됐다고 업체 측은 밝혔다.