메뉴 건너뛰기

IT기술과 인간 9 책 읽기? 책 듣기!

 

코난(진보교육연구소 회원)

 

개인적으로 걷는 것을 좋아합니다. 하여 걸어서 출퇴근하는 것에 자부심을 가지고 있으며, 먼 곳을 갈 때도 대중교통을 주로 이용하는 뚜벅이입니다. 주말에는 운동 삼아 집 근처 뒷산을 걷곤 했습니다. 그러다가 혼자 그냥 걷는 것이 무료하여 mp3 플레이어를 구입했습니다. 좋아하는 노래를 저장하여 듣기도 하고 FM 음악 방송을 듣기도 하다가, 일본어 공부를 한다며 일본어 어학 파일을 한참 듣기도 했습니다. 그러다가 한동안 책읽어주는 라디오를 표방한 EBS FM에서 성우가 들려주는 소설을 듣기도 했습니다. 익숙하지는 않았지만 소설을 읽지 않고 들어도 내용이 머리에 들어오는 것을 깨닫게 되고, 어떤 샘이 어려운 책을 반복적으로 읽기 위해 스스로 읽고 녹음하여 출퇴근 운전 길에 들었다는 이야기를 듣고, 걸으면서 책을 들을 수 있다면 좋지 않을까라는 생각이 들었습니다.

 

사실 라디오가 책을 읽어 준다던가, ‘오디오북이니 하는 개념이 낯설게 느껴지는 것이 오히려 역설적인 것일 수 있습니다. 인류 역사에서 문자가 발명되고 책이라는 것이 생겨난 것이 그렇게 오래되지 않았기 때문입니다. 문자가 발명되기 이전 인간의 이야기는 말로 구전될 수밖에 없었을 것입니다. 예컨대 서양의 일리아스오디세이아같은 서사시나 한국의 판소리는 구전되다가 나중에야 글로 고정됩니다. 따라서 인간이 귀로 어떤 이야기를 듣고 이해하는 것은 매우 자연스러운 일이었을 것입니다. 지금도 어린 아이들은 잠자리에서 부모님이 읽어주는 동화를 열심히 들으며, 말로 들려주는 구연동화를 좋아합니다. 제가 어렸을 때만 해도 할머니나 할아버지가 들려주는 옛이야기나 라디오 드라마라는 것들이 어색하지 않았습니다.

 

먼저 읽고 싶은 책이나 텍스트를 자유롭게 읽어주는 소프트웨어를 찾았습니다. 누군가 책을 읽어 녹음한 것을 구한다면 당연히 텍스트가 제한되어 있을 것이기 때문입니다. 비슷한 기능을 많이 본 것 같아서 쉽게 찾을 줄 알았는데, 처음에는 많이 헤맸습니다. 알고 보니 제가 원하는 기능은 한 가지 기능이 아니라 두 가지 기능이 합쳐진 것이었습니다. 그래서인지 현재는 두 기능이 별개의 프로그램으로 구현되어 있었습니다. 첫 번째 기능은 OCR(Optical Character Recogniton, 광학식 문자 판독)이고, 두 번째 기능은 TTS(Text to Speech, 음성 합성 시스템)입니다. OCR은 그림 파일로 된 문자를 인식하여 텍스트 파일(문자 파일)로 바꾸어 주는 역할을 하고, TTS는 텍스트 파일의 문자를 음성으로 바꾸어 줍니다. 사람은 책 속의 문자를 눈으로 보면 바로 인식하여 의미를 파악하거나, 소리 내어 읽을 수 있습니다. 하지만 컴퓨터가 스캐너나 카메라로 책을 스캔하거나 찍었을 때, 그 결과물은 문자로 가득 차 있어도 컴퓨터에게는 그저 그림 파일일 뿐입니다. 컴퓨터는 그림과 텍스트를 완전히 다르게 취급합니다. TTS는 텍스트 파일만 음성으로 바꾸어 줄 수 있기 때문에, 임의의 책을 소리 파일로 만들고 싶다면 먼저 OCR을 이용하여 책 속의 문자를 추출하여 텍스트 파일로 만들어야 합니다. 물론 듣기를 원하는 책이나 텍스트를 텍스트 파일로 가지고 있다면 OCR은 필요가 없습니다.

 

OCR 프로그램의 인식률은 글씨체와 문자에 따라 많이 다르다고 합니다. 휘갈겨 쓴 필기체와 정자로 또박또박 쓴 글의 인식률은 당연히 차이가 나며, 프린터로 인쇄된 문서는 쉽게 인식 된다고 합니다. 또한 한 줄로 쭉 쓰는 영어 알파벳은 인식률이 높지만 우리의 한글이나 한자는 모양이 복잡하고 연구도 덜 되어서 인지 인식률이 낮다고 합니다. 아마도 완벽한 OCR을 구현하는 것은 딥러닝의 영역으로 넘어갈지도 모릅니다.

그런데 OCR 프로그램은 제게는 불필요 했습니다. 원하는 책을 듣겠다고 한 쪽, 한 쪽을 스캔하거나 카메라로 찍을 수는 없는 노릇이었습니다. 구글이라면 가능할까요? 몇 년 전에 구글이 전 세계의 책을 인터넷에 저장한다며 미국 도서관의 책들을 전부 스캔하고 있다는 이야기를 들은 기억이 납니다. 근데 그 이후의 이야기는 못 들었네요. 이 방대한 책 그림 파일을 OCR로 자동 판독하여 전부 텍스트 파일로 바꾸어 공개한다면 얼마나 좋을까요? 지적 재산권 문제 때문에 쉽지는 않으리라 생각해 봅니다.

몇 년 전에 학급 봉사활동 프로그램으로 맹학교 학생들을 위해 책을 텍스트 파일로 만드는 일을 진행했던 일이 생각납니다. ‘점자/전자도서 제작을 위한 워드입력봉사라고 합니다. 맹학교 학생들에게는 텍스트 파일을 점자로 만들어 읽을 수 있게 해 주는 장비(노트북?)가 있다고 합니다. 주요 교재나 유명한 책은 텍스트 파일이 있어서 그 장비로 읽을 수 있지만, 텍스트 파일을 구할 수 있는 책이 많지 않아 필요한 책을 워드로 타이핑해서 텍스트 파일로 만들어 주는 것이 필요했던 것입니다. 제 기억으로는 두 세 번인가 했었는데, 한 번은 소설책을 한 번은 과학 문제집을 워드로 쳤던 기억이 있습니다. 한 권의 소설책을 전부 스캔으로 떠서 학생들에게 균등하게 분배하고 각자 타이핑한 파일을 모아서 책 한 권의 텍스트 파일을 완성했습니다. 문제집은 조각내어 학생들에게 나누어 주고 각자 타이핑했는데, 문제에 그림이 나오는 경우 그림을 말로 풀어서 써 주는 것 때문에 훨씬 작업이 힘들었던 기억이 납니다. 시각 장애인을 위한 봉사활동 중에 녹음도서 제작을 위한 도서낭독봉사라는 것이 있는데 같은 맥락입니다.

 

사람이 직접 읽어서 녹음하는 것이 아니라, 텍스트 파일만 있다면 컴퓨터가 음성을 합성하여 자동으로 읽어주거나 나중에 들을 수 있도록 음성파일로 만들어 주는 기능이 바로 TTS입니다. OCR은 포기했지만 텍스트 파일이라도 들을 수 있다는 생각에 TTS 프로그램을 찾아보았습니다. TTS는 의외로 가까운 곳에 있었습니다. 마이크로소프트의 새로운 웹브라우저 엣지에 들어가 보면 소리 내어 읽기라는 메뉴가 있습니다. 실행 시키면 웹에 있는 텍스트를 혜미(Heami, 목소리 엔진)라는 여자 목소리로 읽어 줍니다. 사용해 본 적은 없지만 이는 윈도우에 내장되어 있는 목소리 엔진으로 시각 장애인이 컴퓨터를 이용할 수 있도록 메뉴를 읽어 준다고 합니다. 구글 번역, 마이크로소프트 빙 번역, 카카오 번역에는 모두 음성 듣기 기능이 있습니다. 어떤 언어를 입력하든 음성으로 읽어 줍니다. 한글의 경우 구글은 남자 목소리이고 카카오는 여자 목소리이며 빙은 남자, 여자 목소리 선택이 가능합니다. 스마트폰에서도 TTS 기능을 가진 앱이 있었습니다. 제가 찾은 보이스북이라는 무료 앱은 한글과 영어 텍스트 파일을 음성으로 읽어줍니다.

문제는 이 프로그램들에는 녹음 기능이 없거나 짧은 글만 읽어 준다는 것이었습니다. 제가 원하는 것은 어느 정도 긴 텍스트를 노래처럼 mp3 플레이어에서 바로 들을 수 있는 음성 파일(mp3 파일)로 바꾸어 주는 소프트웨어였습니다. 그렇게 해서 찾게 된 것이 러시아어로 수다쟁이라는 뜻을 가진 '발라볼카(Balabolka)'라는 프로그램이었습니다. 이 프로그램의 장점은 무료이며, 사용이 비교적 쉽고, 텍스트 파일만 있으면 긴 내용도 금세 mp3 파일로 바꾸어 준다는 것입니다. 인터넷에서 검색해 보니 발라볼카같은 프로그램은 ‘TTS 플레이어에 불과하며, TTS의 핵심은 사실 목소리 엔진이라고 합니다. 그래서 실제 사람의 목소리처럼 자연스럽게 억양을 구사하는 목소리 엔진은 유료이며 따로 구입해야 한다고 합니다. 하지만 윈도우에는 발라볼카로 바로 이용할 수 있는 혜미라는 목소리 엔진이 내장되어 있으며, 발라볼카는 구글 번역기의 목소리 엔진을 이용하는 것도 가능했습니다. 따라서 텍스트 파일만 있으면 그런대로 들을 수 있는 두 종류의 음성 파일 제작이 쉽게 가능했습니다. 제가 써 보니 재생 속도에 따라 다르지만 대략 1분에 1MB가 조금 못 되는 용량이 필요했습니다. 1시간짜리 음성 파일이면 대략 60MB가 필요하다는 계산이 나옵니다.

 

한 동안 구할 수 있는 텍스트 파일을 음성으로 변환하여 mp3 플레이어로 듣고 다녔습니다. 솔직히 말하자면 결과는 생각보다 만족스럽지 않았습니다. 소설이나 수필같은 쉽고 간단한 텍스트가 아니라 주로 진보교육연구소의 꺼리 등과 같은 읽고 이해하는 데 시간이 걸리는 텍스트를 들어서 인지는 몰라도, 들은 내용이 잘 정리되지 않았습니다. 처음 읽는 텍스트는 결국 다시 읽어야 했습니다. 한 번 읽은 어려운 책을 반복적으로 들어 보면 좋지 않을까 하여 텍스트 파일을 구해 음성 파일로 바꾸어 놓았지만 아직 제대로 듣지 않았습니다. TTS의 효능에 대한 제 테스트는 아직 진행중입니다.

 

사실 이야기를 말로 듣는 것과 글로 읽는 것은 많이 다릅니다. 말에는 억양이나 강세가 있고 목소리의 크기를 조절하거나 톤을 바꿈으로서 다양한 감정을 표현하거나 극적인 효과를 부여할 수 있습니다. 하지만 글로 말의 고유한 억양이나 강세를 그대로 표현하는 것은 불가능합니다. 글에서는 감정을 표현하거나 극적인 효과를 부여하고 싶을 때 말과는 다른 방식을 사용해야 합니다. 고대의 서사시가 구전에 알맞다면, 현대 소설들은 글이라는 형식에 특화되어 있습니다. 어쩌면 책 읽기를 좋아하는 사람들이야말로 책을 통해 눈으로 글을 읽는 것에 특화된 특이한 존재일 수도 있습니다. 따라서 어떤 글이든 기계적으로 읽어주기만 한다면 좋겠다는 저의 생각이 순진한 생각이었을지도 모릅니다. 소설도 아닌 사회과학 텍스트라면 더 말할 나위도 없을 것입니다.

 

그 외에도 이 글을 쓰기 위해 여기저기 찾아보니 오디오북이라는 것이 존재한다는 것을 알게 되었습니다. 미국에는 오디오북시장이 존재하며 오디오북에 대한 연구도 진행되어 있었습니다. 버지니아 대학의 심리학 교수인 Daniel Willingham은 오디오북의 단점을 세 가지라고 말합니다. 첫째 오디오북은 바로 전으로 되돌아가기 쉽지 않다고 합니다. 사람들이 실제로 책을 읽을 때 안구 운동의 10~15%는 이전에 읽은 내용을 다시 읽는 데 이용된다고 합니다. 이 빠른 안구 운동이 문장을 잘 이해하는 데 필수적이라는 것입니다. 하지만 오디오북은 이것이 불가능하거나 매우 귀찮습니다. 둘째 오디오북은 계속 집중해서 듣지 못한다고 합니다. 종이책을 읽을 때 사람은 몇 분간 집중해서 읽다가 몇 초나 몇 분간 멍하게 된다고 합니다. 아니면 앞에 읽은 내용을 생각하느라 읽기를 중단할 수 있습니다. 하지만 오디오북은 이것이 불가능하거나 귀찮습니다. 오디오북을 듣는 내내 집중할 수는 없다는 것입니다. 따라서 오디오북 강의가 종이책보다 28%정도 이해도가 낮다는 연구도 있다고 합니다. 셋째 사실 멀티태스킹이 되지 않는다고 합니다. 우리가 오디오북을 원하는 이유는 다른 작업을 하면서 오디오북을 듣고자 하는 것인데, 실제 오디오북을 들으면서 함께 할 수 있는 일은 많지가 않습니다. 운전이나 등산 같이 거의 자동화되어 의식을 요하지 않는 일이 아니면 오디오북을 들으면서 동시에 할 수 없다는 것입니다.

저의 경우에는 앞의 두 가지가 문제였던 것 같습니다. 출퇴근이나 등산을 하면서 걸을 때, 지속적으로 집중하며 책을 듣는 것이 쉽지 않았던 것입니다.

 

또한 TTS 기능을 조사하다가 전자책에 대해서도 조금 알게 되었습니다. 요즘 인터넷 서점에서 책을 검색해 보면 똑같은 책을 종이책이 아닌 좀 더 저렴한 가격에 전자책으로 파는 경우를 많이 볼 수 있습니다. 저는 전자책을 그저 컴퓨터 모니터나 스마트폰 화면으로 문서 파일을 읽는 것 정도로 생각했습니다. 물론 전자책은 스마트폰이나 태블릿으로도 읽을 수 있지만, 더 좋은 것은 전자책 전용 리더기를 이용하는 것이라고 합니다. 유료로 별도로 구입해서 들고 다녀야 하는 불편함이 있지만, 전자책 리더기의 가장 좋은 점은 눈이 피로하지 않다는 것이랍니다. 스마트폰이나 태블릿은 LCD 디스플레이라서 백라이트 빛을 쓰기 때문에 어두운 곳에서도 읽을 수 있지만 1시간 이상 보면 눈이 아프다고 합니다. 하지만 전자책 리더기는 백라이트가 없어서 밤에는 읽을 수 없지만 종이책처럼 눈이 아프지 않다고 합니다. 물론 라이트 기능이 있으면 밤에도 읽을 수 있답니다. 오래 읽을 수 있다는 것입니다. 그리고 요즘 나오는 전자책 리더니 중에 TTS 기능이 내장된 것이 있다고 하네요. 하지만 부피가 큰 리더기를 사서 들고 다니며 이어폰으로 책을 듣는다는 것이 과연 편할까 라는 의문이 듭니다.

 

혹자는 TV나 영화를 넘어 인터넷과 스마트폰이라는 매체를 통한 유튜브 등의 동영상이 일반화된 현대에 웬 시대에 뒤떨어지는 구닥다리 같은 이야기냐고 말할지도 모르겠습니다. 누구나 현대는 유튜브와 같은 영상의 시대라고 쉽게 말합니다. 무엇보다 요즘 아이들은 책과 같은 텍스트보다 영상에 훨씬 더 익숙하며, 영상의 문법은 텍스트의 문법과 또 다를 것입니다. 하지만 인터넷에서 블로그의 역할을 과소평가하지 말라는 글을 본 적이 있습니다. 블로그란 SNS의 일종으로 개인이 운영하는 웹사이트를 말하며 개인이 긴 호흡의 글을 쓰기 위한 공간으로 이용되기도 합니다. 블로그는 사진이나 그림도 포함하지만 분명 텍스트가 중심입니다. 아직도 인터넷에서 무엇인가를 검색하면 개인 블로그에서 유용한 정보를 얻을 수 있는 경우가 많이 있습니다. 텍스트를 읽고 이해하는 힘이야 말로 인간 정신 발달의 가장 중요한 기능 중 하나이며, 아직도 대부분의 정보는 영상이 아닌 텍스트로 존재하며 텍스트로 제작되고 있다는 것을 잊지 맙시다.

 

지금도 TTS 기능은 진화 중입니다. 발라볼카의 TTS는 아직 사람이 읽어 주는 것보다 많이 어색하기만 합니다. 딥러닝을 이용하여 사람처럼 자연스럽게 글을 읽어 주는 TTS가 나온다는데 아직 접해 보지는 못했습니다. 책을 읽지 않고 책을 듣고 싶다면, 한계는 있지만 아쉬운 데로 TTS에 한 번 도전해 보세요.

 

번호 제목 글쓴이 날짜 조회 수
1508 담론과 문화> 시대와 호흡하는 음악 file 진보교육 2020.05.13 190041
1507 78-담론과 문화> 안녕, 클리토리스!^^ file 진보교육 2020.11.15 99568
1506 [기획] 1. 비고츠키의 교육심리학은 무엇인가? file 진보교육 2016.10.19 66913
1505 담론과 문화> 한송의 미국생활 적응기-가깝지만 먼 당신, 병원. file 진보교육 2019.11.16 64251
1504 [담론과 문화] 노매드랜드 file 진보교육 2021.08.23 56345
1503 포스트모더니스트들이 잊은 것_손지희역 애플 2001.10.11 47759
1502 [현장에서] 페미니즘으로 본 학교 file 진보교육 2016.12.20 47019
1501 현장에서> [관성]을 통한 또 한 번의 시도 file 진보교육 2020.05.13 37507
1500 담론과 문화> 모든 소녀들의 단독성을 위한 노래 file 진보교육 2020.05.13 28450
1499 신기술에 대한 이론정립을 위해_강신현역 더글라스켈러 2001.02.08 26653
1498 기획연재_교육사회학 훑어보기(2) file jinboedu 2004.04.27 22718
1497 [기획] 3. 구성주의 교육학과 신자유주의 file 진보교육 2016.12.20 21536
1496 [해외동향] 거기서 미래를 보았네 - 쿠바교육 기행기 file 진보교육 2009.03.25 21448
1495 담론과 문화> 이성우의 문화담론 - 결혼에 집착하는 한 여성의 회복적 삶을 그린 영화 뮤리엘의 웨딩(Muriel’s Wedding) file 진보교육 2021.01.23 18572
1494 [담론과 문화] 뜻밖의 음악 기행 file 진보교육 2013.07.19 15820
1493 [담론과 문화] 3. 창조론, 과학에 도전하다 file 진보교육 2012.10.15 14667
1492 [책이야기] 낡은 것은 가고 새것은 아직 오지 않은 file 진보교육 2021.08.23 14535
1491 [80호 특집1] OECD 교육 2030의 내용과 이론적, 실천적 의의 file 진보교육 2021.05.08 14374
1490 [담론과문화] 찜질방으로부터의 사색 file 진보교육 2008.04.07 13225
1489 담론과 문화> 드라마 SKY캐슬 - ‘누가 아이들을 죽였는가!’ file 진보교육 2019.01.18 13214