press
에이아이더뉴트리진, 음성복제 STT 솔루션’ 출시 [GLOBAL EPIC 2022-02-10]
2022-02-10
[글로벌에픽 이수환 기자] STT(Speech-to-Text)는 콜센터 통화내용, 유튜브 영상, 회의녹음 등 음성 파일을 문자로 변환해 주는 기술이다. STT기술을 활용한 STT솔루션은 콜센터나 영업에서 고객응대시 꼭 지켜야 하는 준법사항 준수 모니터링, 불법 추심활동 탐지, 고객선호 상품 파악, 고객정보 추가 확보 등 다양한 목적으로 이용되고 있다.
이미 시장에 다수의 STT 솔루션이 나와 있으나, 인식 정확도가 공급업체마다 매우 큰 차이를 보인다. 음성인식 기술에 따라 대화내용, 대화유형, 대화 중 잡음의 종류에 따라 텍스트 변환 품질에서 상당한 차이가 발생하기 때문이다.
AI기반 바이오솔루션 기업 에이아이더뉴트리진(대표 김종철)은 이러한 음성변환 품질을 개선한 솔루션인 ‘Smart STT’를 출시했다고 10일 밝혔다.
이번에 출시하는 ‘Smart STT’는 음성인식은 물론 대화자의 감정분석(Sentiment Analysis)까지도 동시에 가능하다. 현재는 ‘즐거운, 화난, 슬픈, 평정’의 4가지 감정분류가 가능하지만, 고객의 요청에 따라 카테고리를 늘리고, 재학습을 통해 보다 다양한 감정분류가 가능하다.
‘Smart STT’ 솔루션 개발에 사용한 핵심 알고리즘은 트랜스포머(Transformer)와 합성곱신경망(CNN)을 결합한 콘포머(Conformer)로, 3천 시간 이상의 통화데이터의 학습과 튜닝을 거쳐 음성인식률 성능을 개선했다고 한다.
이전의 STT 엔진은 히든마코프모델(HMM), 딥러닝 또는 순환신경망인 RNN 계열의 알고리즘을 많이 이용하는 것에 반해 ‘Smart STT’에 적용된 콘포머 알고리즘은 부분(Local)정보와 광역(Global)정보를 효율적으로 처리하는 알고리즘으로 최근 음성 및 언어처리 분야에 많이 도입되고 있는 방식이다.
STT엔진의 성능을 측정하는 정확도는 문자오류율(CER)과 단어오류율(WER)로 측정되는데, ‘Smart STT 솔루션’의 경우 두 오류율 모두 8% 이내의 낮은 수치를 보인다. 또한, 학습과정에서 사용되지 않은 단어로 인해 발생되는 오류인 OOV(Out of Vocabulary) 를 서브워드 토크나이저(Subword Tokenizer)를 이용해 감소시켰다. 또한 ‘Smart STT 솔루션’은 인식의 정확도뿐만 아니라 처리속도도 매우 빨라, 실시간 대화 변환이 가능하다는 강점을 가지고 있다.
개발사인 에이아이더뉴트리진은 이미 음성복제 솔루션 ‘와이즈클로닝(Wise Cloning)’으로 사업을 진행해 왔으며, 이번에 음성인식 STT 솔루션까지 영역을 확장하였다. 개발을 주도한 AI 사업부문 김수화 대표는 “음성복제와 음성인식은 유사한 알고리즘들을 이용하기 때문에, 쌍둥이 솔루션과 같다”며 “음성인식과 다양한 유형의 텍스트 분석(TA) 영역을 다룰 수 있는 솔루션 체계 전반까지 구비한 상황”이라고 밝혔다.
이어 “스마트폰 사용으로 통화보다는 문자이용이 보편화되었지만 음성기반의 커뮤니케이션 또한 증가할 수 밖에 없을 것이다. 메타버스 환경과 향후 일상생활에 로봇이 등장할 때가 곧 올 것이며, 이때 상대방 음성을 듣고 이해와 동시에 발화하는 자연어처리 분야의 AI 기술은 신대륙처럼 확장될 가능성이 매우 크다”라고 전망했다.
한편 ‘Smart STT’ 솔루션은 에이아이더뉴트리진 공식 홈페이지 ‘Smart STT 데모 사이트’에서 무료로 시험 테스트가 가능하다.