press
에이아이더뉴트리진, 감정분석까지 가능한 ‘음성복제 STT 솔루션’ 출시[Beyond Post 2022-02-10]
2022-02-14
[비욘드포스트 김민혁 기자] AI기반 바이오솔루션 기업 에이아이더뉴트리진(대표 김종철)은 음성변환 품질을 개선한 솔루션 ‘Smart STT’를 출시했다고 10일 밝혔다.
STT(Speech-to-Text)기술은 콜센터 통화내용, 유튜브 영상, 회의녹음 등 음성 파일을 문자로 변환해주는 기술이다. 최근 콜센터나 영업에서 고객응대 시 지켜야하는 준법사항 준수 모니터링, 불법 추심활동 탐지, 고객선호 상품 파악, 고객정보 추가 확보 등을 위해 STT 기술을 활용한 STT 솔루션이 사용되고 있다.
다수의 STT 솔루션이 이미 시장에서 활용되고 있으나, 공급업체에 따라 인식정확도가 큰 차이를 보이고 있다. 이러한 차이가 발생하는 이유는 음성인식 기술에 따라 대화내용, 대화유형, 대화 중 잡음의 종류에 따라 텍스트 변환 품질에서 차이가 발생하기 때문이다.
에이아이더뉴트리진의 ‘Smart STT’ 솔루션은 트랜스포머(Transformer)와 합성곱신경망(CNN)을 결합한 콘포머(Conformer)를 핵심 알고리즘으로 사용한다. 3천시간 이상의 통화데이터 학습과 튜닝을 거쳐 음성인식율 성능을 개선하였다.
기존 STT 엔진은 히든마코프모델(HMM), 딥러닝 또는 순환신경망인 RNN 계열의 알고리즘을 많이 이용하는 것에 반해 ‘Smart STT’에 적용된 콘포머 알고리즘은 부분(Local)정보와 광역(Global)정보를 효율적으로 처리하는 알고리즘으로 최근 음성 및 언어처리 분야에 많이 도입되고 있다.
에이아이더뉴트리진 관계자는 “STT엔진의 성능을 측정하는 정확도는 문자오류율(CER)과 단어오류율(WER)로 측정되는데, ‘Smart STT 솔루션’의 경우 오류율들이 8% 이내로 우수한 성능을 보이고, 처리속도가 매우 빨라 실시산 대화 변환이 가능하다”며 “또한 학습과정에서 사용되지 않은 단어로 인해 발생되는 오류인 OOV(Out of Vocabulary)를 서브워드 토크나이저(Subword Tokenizer)를 이용해 줄였다는 점도 본 솔루션의 큰 특징이다”고 말했다.
개발사인 에이아이더뉴트리진은 이미 음성복제 솔루션 ‘와이즈클로닝(Wise Cloning)’으로 사업을 진행해 왔으며, 이번에 음성인식 STT 솔루션까지 영역을 확장한 것이라고 한다. ‘Smart STT’ 솔루션 개발을 주도한 AI 사업부문 김수화 대표는 “음성복제와 음성인식은 유사한 알고리즘들을 이용하기 때문에, 쌍둥이 솔루션과 같다. 음성인식과 다양한 유형의 텍스트 분석(TA) 영역을 다룰 수 있는 솔루션 체계 전반까지 구비한 상황”이라고 밝혔다.
이어 “최근 스마트폰 사용으로 통화보다는 문자이용이 보편화되었지만 음성기반의 커뮤니케이션 또한 증가할 것으로 예측된다”며 “메타버스 환경과 향후 일상생활에 로봇이 등장할 때가 멀지 않았고, 이때 상대방 음성을 듣고 이해와 동시에 발화하는 자연어처리 분야의 AI 기술은 신대륙처럼 확장될 가능성이 크다”고 전망했다.
한편 ‘Smart STT’ 솔루션은 에이아이더뉴트리진 공식 홈페이지에 기재된 ‘Smart STT 데모 사이트’에서 무료로 시험 테스트가 가능하다.