언제나 우리에게 차세대 웹에 대한 좋은 글을 소개하는 알렉스 이스콜드(Alex Iskold)가 미래의 웹 환경 중에서 컨텍스트 웹(Contextual Web)에 대해서 쓴 글이 있어 소개를 할까 합니다.  원문은 아래 링크를 따라가시면 보실 수 있습니다. 

http://www.readwriteweb.com/archives/contextual_web.php


컨텍스트 웹이란?

사실 얼마 전까지만 해도, 웹이라는 것은 단지 밋밋한 HTML 페이지의 집합과도 같은 느낌이었습니다.  이런 페이지를 보는데 필요한 소프트웨어는 단지 웹 브라우저였고 말이지요 ...  문제는 브라우저라는 녀석은 사용자가 무슨 의도를 가지고 있는지, 그리고 무엇을 생각하는지에 대해 관심이 별로 없는 소프트웨어라는 것입니다.  "컨텍스트(Context)"라는 것은 우리말로 번역하기가 참 어려운 용어인데, 굳이 번역을 한다면 "의도"나 "문맥, 맥" 정도가 적절할 것 같습니다.  한마디로 웹 브라우저는 컨텍스트를 이해하지 못하는 소프트웨어 입니다.

그렇기 때문에, 컨텍스트 웹이 되려면 사용자의 행위를 이해할 수 있는 어떤 장치와 디자인이 필요합니다.  기본적으로 웹 페이지가 제공하는 정보와 사용자의 행위가 결합되어 컨텍스트가 만들어질텐데, 일단 사용자의 컨텍스트를 알 수 있고 그에 대해 적절히 대응하는 웹 페이지가 만들어진다면 훨씬 유용할 것입니다.  이러한 요구사항을 만족시키는 웹 페이지나 웹 기술을 컨텍스트 웹이라고 부릅니다.  컨텍스트 웹은 시맨틱 웹과 함께 웹 3.0 시대를 여는 대표적인 기술로 주목받고 있습니다.

컨텍스트 웹이 만들어지려면 브라우저 기술과 웹 사이트 구축 기술이 모두 진보를 해야 합니다.  선택해야 할 내용은 적어지고, 의미는 더 풍부하면서 자연스럽게 흘러가야 되는 것이죠 ...  검색이 전혀 필요없는 것은 아니겠지만, 필요로 하는 정보를 얻거나 서비스를 받기 위해서 사용자가 직접 많은 것을 찾기 보다는 자연스럽게 웹 사이트와 상호작용을 하다보면 원하는 정보나 서비스에 접근할 수 있는 것 ...  그것이 컨텍스트 웹 입니다.

그렇다면 이러한 컨텍스트 웹을 구성할 수 있도록 하는 기술들에는 어떤 것들이 있을까요?


마크업 기술 (Markup Technologies)

사용자의 컨텍스트를 유추해내기 위해서는 먼저 사용자가 어떤 정보를 보고 있는지 알 수 있어야 합니다.  여기에 관여하는 기술이 시맨틱 웹과 관련한 기술입니다.  시맨틱 웹과 관련한 기술은 제 블로그에서도 2차례 소개한 바 있으니 더 자세한 내용은 참고하시기 바랍니다.

2008/12/31 - [Health 2.0 vs. Web 2.0] - 웹 3.0을 이끈다는 시맨틱 웹 기술의 정체 (2)
2008/12/30 - [Health 2.0 vs. Web 2.0] - 웹 3.0을 이끈다는 시맨틱 웹 기술의 정체 (1)


시맨틱 웹 기술 중에서 microformats라는 XHTML과 호환이 되는 메타데이터 포맷이 있습니다.  보통은 웹 페이지에 등장하는 사람, 장소, 이벤트, 리뷰 등의 의미를 부여하기 위해서 사용하는데, 이를 잘 이용하면 사용자의 컨텍스트를 유추하는데 큰 도움이 됩니다.  그 중에서 hAtom 이라는 microformat 기반으로 만들어진 기술이 웹 슬라이스(Web Slices입니다.  MS의 IE8에 구현이 되었는데요, 웹 슬라이스는 페이지를 게시한 사람이 사용자에게 웹 페이지의 정보가 변경되었을 때 이를 알려줄 수 있는 기능을 제공합니다.  예를 들어, 날씨가 변했을 때 이를 사용자에게 알려준다거나, 이베이에서 경매에 참여하고 있을 때, 경매가가 변경이 되었을 때 이를 알려주는 서비스 등에 유용할 것입니다.  제한적이기는 하지만 웹 슬라이스가 정보의 생산자와 소비자 간의 소통을 브라우저를 통해 증진시키는 효과를 가져올 수 있을 것 같습니다.

또 한가지 방법으로는 브라우저에 애드온을 달아서, 현재의 마크업의 확장판을 알 수 있도록 할 수가 있습니다.  이런 기술을 이용한 대표적인 사이트가 Cooliris 입니다.  Cooliris는 이미지를 가지고 있는 사이트에 대한 마크업 포맷을 제공하는데, 홈 디렉토리에 약간의 XML 코드만 추가하면 해당 사이트의 그림들은 Cooliris에서 개발된 3D 이미지를 경험할 수 있게 됩니다.  Cooliris에 대해서는 향후 따로 자세히 리뷰를 할 생각입니다.

이와 같이 기존의 HTML 마크업에 확장을 하는 방식으로 사이트를 사용자의 컨텍스트를 이해할 수 있게 만드는 것은 유효한 방법이지만, 웹 페이지를 게시하는 사람이 웹 페이지에 추가적인 마크업 작업을 해줘야 한다는 부담이 있습니다.  사실 시맨텍 웹도 처음 기대보다 빨리 활성화되지 않는 것이, 초기에 나왔던 RDF나 microformats과 같은 바텀-업 방식이 기존 사이트의 HTML 마크업에 추가로 손을 본다는 것을 전제로 하는데, 이런 추가작업이 생각처럼 잘 이루어지지 않는다는 점을 감안하면 일반화되기는 다소 어렵다고 할 수 있겠습니다.


플러그-인(Plug-in)과 위젯 (Widgets)

아마도 현 단계에서 컨텍스트 웹으로 가는 길에 가장 인기가 있는 것은 플러그-인과 위젯 기술이 아닌가 합니다.  플러그-인과 위젯은 휴리스틱이나 API를 제공하여 사용자와의 직접적인 상호작용을 시도합니다.  이들이 성공적으로 안착한 가장 큰 이유는 아마도 사용자의 의도가 숏컷의 형태로 투영이 되기 때문이 아닐까 합니다. 

블로그 플러그-인 방식은 보통 프리뷰 형식으로 만들어진 것들이 많습니다.  블로그 플러그-인으로 유명해진 것들로 CoolPreviews, SnapShotsApture 같은 것들이 있습니다.  CoolPreviews는 페이지의 프리뷰를 만드는데 주로 초점을 맞추고, SnapShots와 Apture는 웹 페이지에 있는 링크에 대한 정보를 짤막하게 요약해서 보여줍니다.  프리뷰는 사용자들이 마우스를 통해서 간단한 내용을 보고 마음에 들지 않는다면, 불필요한 클릭을 하지 않아도 되기 때문에 컨텍스트를 이해하고 상호작용하는데 꽤 중요한 의미를 가집니다. 

위젯 역시 프리뷰와 마찬가지로 사용자 컨텍스트에 대한 숏컷을 제공합니다.  위젯들 역시 보통 연렬된 링크에 대해서 동작하도록 하는 경우가 많은데, 대표적인 예가 Yahoo! ShortcutsSmartLinks 입니다.  프리뷰를 보여주기 보다는 해당 컨텐츠와 연관된 링크들을 제공합니다.  아래의 뉴욕 타임즈 웹 페이지의 영화 섹션에서 연결된 SmartLink를 보면, 사용자들이 아마존에서 DVD를 사거나 넷플릭스에서 빌릴 수 있게 바로 연결할 수 있습니다.





브라우저 애드-온 (Browser Add-Ons)

브라우저 애드-온과 관련하여 현재 미국에서 돌풍을 일으키고 있는 것이 불여우(Firefox) 입니다.  현재 점유율 20%를 돌파하고 계속 기세가 꺾일 줄 모르고 있는데요, 이 돌풍을 일으킨 가장 강력한 원동력 중의 하나로 많은 분들이 편리한 애드-온 들을 꼽습니다.  국내에서는 아직 중독자들이 많이 안 나오고 있는데, 미국에서는 애드-온 중독자들로 인해 다른 브라우저는 쓰지 못하는 사람들이 속출하고 있는데요.  저는 아직 그 정도는 아니지만, 국내에서도 외국 사이트 많이 들어가면서 애드-온 많이 쓰시는 분들 중에는 중독증상 보이는 분들을 몇몇 보았습니다.

이미 개발되어 발표된 애드-온의 수가 수천 개가 넘어가고 있고, 그 다양성이 상상을 초월할 정도입니다.  그 중에서 가장 많은 것들이 아무래도 오늘 포스팅의 주제인 사용자 컨텍스트와 상호작용을 증대하는데 초점을 맞추고 있습니다.  많은 애드-온 중에서도 컨텍스트 웹과 관련한 애드-온으로 주목받는 것이 Greasemonkey 인데요, 사용자가 약간의 자바스크립트를 설치를 해서 자신이 방문하는 웹 페이지의 컨텐츠와 모양을 약간씩 변형을 할 수 있습니다.  그러다보니, Greasemonkey에서 이용할 수 있는 다양한 스크립트 예제 같은 것들도 아주 인기가 있습니다.

Greasemonkey는 스크립트를 기반으로 하기에, 파워유저가 아니면 쓰기가 어렵고, 대중화에 한계가 있을 수 밖에 없습니다.  좀더 쉬우면서도 직관적인 것들도 상당 수 나와 있습니다.  WebMynd 같은 경우 구글의 검색결과를 향상시키는데 주안점을 두고 있는데요, 구글의 광고를 자동으로 내리고 광고위치에 컨텍스트 가젯을 삽입합니다.  구글의 입장에서는 싫겠지만, 광고 싫어하는 사람들에게는 환영을 받고 있습니다.  동시에, 트위터와 아마존, 유튜브 등의 인기 웹 사이트와의 연계를 한 화면에서 할 수 있도록 하고 있습니다.  아래 그림은 알렉스 이스콜드가 WebMynd를 써서 "semantic web"에 대한 검색을 하면서, 동시에 트위터로 이런저런 메시지도 보내고, 바로 아래에 유튜브 등에 관련 동영상 등이 링크된 화면입니다.  광고부분이 이렇게 멋지게 대체가 되었습니다.





컨텍스트 웹이 미래의 웹 환경이 될 것인가?

이전 포스팅에서 애플의 아이팟과 아이폰이 가져온 컨텍스트 UI (CUI) 혁명에 대해 언급을 한 바 있습니다.

2009/01/02 - [Health 2.0 vs. Web 2.0] - 사용자 인터페이스의 대변혁은 현재진행중: MS vs. 애플

마찬가지로 웹 환경역시 이러한 전반적인 트렌드가 적용되는 것일까요?  단순히 기술들만 늘어나고 있는 것은 아닌지 ... 분명한 것은 과거 HTML이 탄생한 수십 년전의 환경과 현재의 웹 환경에는 엄청난 차이가 있다는 것이고, 이러한 차이에는 정보가 일방적으로 전달되던 것에서 다양한 사용자의 입력이 동적으로 적용되는 요구가 늘어났다는 점이 큰 영향을 미치고 있습니다.  확실히 새로운 웹 기술에 대한 수요가 늘고 있는 것입니다.

그런 측면에서, 최근의 변화는 과거 공급자 측에서 마케팅 수단으로 늘려나가던 구호와는 차이가 있는 것이 분명합니다.  공급이 아닌 정보를 소비하는 소비자 쪽에서의 필요성이 증대되고 있고, 이를 맞추기 위한 기술들이 나타나고 있는 것으로 봐야할 것 같습니다.  아마도 이와같은 컨텍스트 웹으로의 진화를 위한 웹 서비스와 API 들은 지속적으로 늘어날 것입니다.  일부는 각광을 받을 것이고, 일부는 사라져 가겠지요 ...  하지만, 확실한 것은 2009년에 맞이하게될 새로운 웹 환경은 과거의 웹에 비해 훨씬 똑똑하고 편리하며, 즐길 것이 많은 형태가 되어있을 것이라는 점입니다.

웹 브라우저 전쟁도 주목되는데요, 이미 미국에서 돌풍을 일으키고 있는 파이어폭스에 MS에서 내놓는 IE 8이 어떤 반응을 얻을 지 주목됩니다.  여기에 구글의 크롬까지 도전장을 내고 있으니 점입가경입니다.  올해에는 그 어느때보다 풍성한 웹 브라우저 전쟁을 볼 수 있을 것 같아 즐겁습니다.


신고
크리에이티브 커먼즈 라이선스
Creative Commons License

WRITTEN BY
하이컨셉
미래는 하이컨셉, 하이터치의 세계라고 합니다. 너무 메마르고 딱딱한 이야기보다는 글로벌 시대에 어울리는 세계 각국의 이야기, 그리고 의학과 과학을 포함한 미래에 대한 이야기의 세계로 여러분을 초대합니다.

트랙백이 하나이고 ,

시맨틱 웹(Semantic Web)이라는 용어가 있습니다.  해석하기 조차 난감한 이 용어에 대해 제대로 알고 계시는 분 계시면 손들어 보세요?  흠 ...  별로 안계시네요 ^^;

그렇다면 들어는 보셨나요?  네 ... 많이들 들어보셨죠?  제가 2000년도에 '웹 서비스'라는 책을 쓸 때에도 차세대 웹기술로 언급되던 용어였으니까 용어 자체는 익숙할 겁니다.  많은 사람들이 또한 시맨틱 웹이라는 것이 웹 3.0의 기반기술이 될 것이라고 말하고 있기도 합니다.  그렇지만, 진정한 시맨틱 웹의 정체에 대해 제대로 쓰여진 글을 본 적이 별로 없습니다.  기껏해야 RDF나 OWL 같은 기술적인 방안에 대한 글만 몇 개 눈에 띄는 정도네요. 

며칠 전 알렉스 이스콜드(Alex Iskold)가 RWW에 기고한 글을 읽었습니다.  저 자신도 많은 것을 생각나게 하는 글이더군요.  그래서, 그의 글을 바탕으로 한번 정도 시맨틱 웹이라는 녀석을 까발리는 글을 써보아야 겠다는 마음을 먹게 되었습니다.  알렉스의 글은 아래 링크에서 읽으실 수 있습니다.  전체적으로 시맨틱 웹으로 진화해 나가기 위한 핵심기술 전반에 대해서 잘 조망하고 있는 글 입니다.

Semantic Web Patterns: A Guide to Semantic Technologies by Alex Iskold


이전 포스팅에서는 전체적인 시맨틱 웹의 개념과 가장 대표적인 일부 기술에 대한 설명을 했습니다.  이 글을 읽으시는 분들 중에서 이전 글을 읽지 않으신 분들은 아래 링크를 따라가셔서 이전 글을 일고 오시면 훨씬 이해가 빠르실 것입니다.

2008/12/30 - [Health 2.0 vs. Web 2.0] - 웹 3.0을 이끈다는 시맨틱 웹 기술의 정체 (1)



시맨틱 API의 등장

시맨틱 웹 애플리케이션이 어느 정도 인지도를 쌓아나가고 있고, 야후의 본격적인 검색 서비스가 시작된 올해, 이에 발을 맞추어 시맨틱 API도 활성화 되기 시작합니다.  시맨틱 API의 역할은 비구조화된 일반적인 문서나 웹 페이지를 입력으로 넣으면, 그 속에 있는 엔티티와 엔티티 사이의 관계(relationship)를 자동으로 찾아내는 것이 가장 중요하겠지요?  그러므로, 작은 자연어 처리도구 같은 형태의 서비스를 생각할 수 있습니다.

시맨틱 API로 가장 먼저 등장한 것이, 세계적인 통신사 로이터(Reuter)Open Calais API 입니다.   이 API는 텍스트 문장을 받아들으면, 그 속에 등장하는 사람과 장소, 그리고 회사 등의 이름을 찾아냅니다.  그리고, 찾아낸 이름 들의 목록과 함께 문서의 어느 위치에서 이들을 발견했는지를 알려줍니다.  기본적으로 Calais는 강력한 자연어 처리 기술을 개발한 Clear Forest라는 회사의 기술을 이용하는데, 로이터가 이 회사를 합병하면서 Open Calais를 내놓았습니다.  Calais는 확장성이 좋기 때문에, 새로운 기능과 API 등이 계속 추가될 것으로 기대됩니다.  우리나라에서도 네이버나 다음, 네이트 아니면 조중동(바랄 것을 바래야 되나?)에서 이런 기술 개발을 해 주어야 하지 않나 싶습니다.  한글은 상당히 다르기 때문에 진입장벽을 칠 수 있거든요 ...  아무래도 첫눈을 인수한 네이버나 지식발전소 엠파스를 먹어버린 네이트에서 해 줘야 될 것 같은데 과연 어떨지요? 

그 다음으로 등장한 것이 텍스트와이즈(TextWise)SemanticHacker API 입니다.  이 API는 문서 내에 있는 정보를 시맨틱 서명(semantic signature)이라고 불리는 카테고리로 분류합니다.  Calais와 비슷하지만, 카테고리 분류를 통해 계층적 구조를 전달해 준다는 측면에서 차이가 있습니다.

또한, 현재 시맨틱 웹 서비스와 관련하여 가장 앞선 기업으로 평가받는 Dapper 역시 시맨틱 API를 공개하고 있습니다.  웹 페이지를 입력하면 웹 페이지 HTML 문서를 분석해서 구조화 정보를 추출하는 것인데, Dapper는 사용자들이 페이지에 객체의 속성을 정의할 수 있도록 했습니다.  예를 들어, 책을 발행하는 사람이 책과 관련된 페이지의 정보를 구조화 한다고 하면 ISBN, 저자(author), 페이지 수 등과 같은 전형적인 정보를 미리 줄 수가 있고, 이 정보를 활용해서 구조화를 합니다.

Dapper API의 가장 큰 장점은 웹 사이트에서 공개하는 서비스를 마치 API 처럼 활용할 수 있다는 점입니다.  웹 사이트를 이용하는 방식으로 이런 서비스를 즐길 수도 있습니다.  Dapper의 성장세가 가파른 것도 이러한 쉬운 접근방식에도 있지 않나 생각해 봅니다.



시맨틱 웹을 지원하는 차세대 검색 서비스

이런저런 기술적인 부분에 대한 논의들도 많지만, 결국 시맨틱 웹이 활성화되는 것은 검색엔진의 업그레이드를 통해서 일 것입니다.  현재 시맨틱 웹 기술을 최대한 활용하여 검색 사용자가 원하는 정보를 찾아주는 차세대 검색엔진 기술의 개발이 큰 이슈인데요, 이 분야에 있어서 가장 앞서 있는 두 회사는 Hakia와 PowerSet 입니다.   Hakia의 경우 올바른 건강의료정보의 검색을 위한 Health Hakia라는 서비스도 런칭하고 있는데, 개인적으로 관심을 많이 가지고 보고 있습니다.  API도 오픈되어 있어서 어느 정도 성공할 수 있지 않을까? 기대는 하고 있습니다.

이들의 기술은 상당히 높게 평가받고 있지만, 시장에서의 반응은 아직 ... 입니다.  특히, 구글의 통계적 분석을 이용한 빠른 검색이 왠만한 질문에 대해서는 그런데로 높은 적중률을 보여주고 있기에, 이들이 시장에서 커가는 것이 그리 녹녹치는 않아 보입니다.  결국에는 구글이나 야후와 같은 메이저들에 의한 사냥감이 되어 버리지 않을까 싶기도 하구요 ...

또 한가지 방법은, 일단 걸러낸 검색 결과를 가지고서 검색결과를 2차적인 카테고리화를 한다거나, 구조화를 시켜서 보다 쉽게 원하는 정보를 서비스하는 애프터서비스 형식의 적용을 생각해 볼 수 있습니다.  이 부분은 구글 내부에서도 상당히 높은 관심을 가지고 연구를 하고 있는 것으로 알려지고 있습니다.



시맨틱 데이터베이스

시맨틱 웹 기술이 활성화 되기 위해서는, 웹 기반의 시맨틱 데이터베이스도 중요한 역할을 할 것으로 예측됩니다.  몇 가지 형태의 시맨틱 데이터베이스가 이미 선을 보이기 시작했습니다.  레이터 네트웍스(Radar networks)는 트와인(Twine)이라는 인명 지식베이스(Personal Knowledge Base) 서비스를 현재 베타 서비스 중에 있습니다.  다양한 형태의 컨텐트를 이용해서 사람의 이름과 회사, 위치나 관련정보를 자동적으로 분류하고 이를 지식베이스에 업데이트를 하는데, 특정 웹 페이지의 북마크나 이메일, 그리고 수동으로 업데이트하는 자료 등을 바탕으로 지속적인 업데이트가 이루어 집니다.  이렇게 특화된 지식베이스는 향후 다양한 형태의 응용서비스에 이용될 수 있을 것입니다.  예를 들어, 사람을 찾거나 CRM, 그리고 마케팅 등과 같은 영역에서 널리 이용될 수 있겠지요?  다소간의 프라이버시 문제가 있을 수 있겠습니다만, 이미 오픈된 정보를 중심으로 한다면 그렇게 큰 문제의 소지는 없으리라 생각됩니다.

메타웹(Metaweb)에서 제공하는 서비스인 프리베이스(Freebase)도 눈여겨 보아야 할 것 같습니다.  RDF 기술을 이용해서 여러 정보를 구조화시킨 것이 인상적입니다.  어찌보면 위키피디아의 업그레이드 버젼과 같은 인상이라고할까요?  앞으로의 발전이 기대되는 서비스입니다.



앞으로의 발전이 기대되는 시맨틱 데이터베이스 - 프리베이스(Freebase)

프리베이스의 가장 큰 문제는 아마도 서버를 어떻게 관리할 것인가?의 문제입니다.  엄청난 속도로 커지고 있는 웹 페이지를 구조화해서 저장하려면, 구글과 마찬가지로 거대한 클라우딩 서버군이 필요할텐데, 규모의 싸움에서 이기기가 힘들다는 것이 문제입니다.  현재는 주로 위키피디아와 참여하는 개인의 정보를 위주로 진행하기 때문에, 정보의 절대량의 측면에서 따라가고 있습니다만, 결국 전체 웹을 대상으로 데이터베이스화 해야 한다고 볼 때 결국 구글이나 마이크로소프트, 야후 등과의 빅딜이 필요할 것으로 보입니다.



웹 3.0 시대는 언제?

이상으로 웹 3.0의 핵심기술로 지목되고 있는 시맨틱 웹에 대해서 간략하게 둘러보았습니다.  웹 2.0이 분산, 참여, 공유로 대별되며, 기존의 커다란 섬으로 상징되던 포탈 기술을 작은 섬들의 집단과 이들 간의 다리를 건설하는 방식의 기술이었다면, 웹 3.0은 정보의 양이 너무 많아지기 때문에 보다 개인화되고 최적화할 수 있는 기술이 초점이 되고 있습니다.  그런 측면에서 시맨틱 웹과 관련된 기술들이 속속 등장하고 있는 것이지요 ...  

웹 2.0 기술과는 달리, 시맨틱 웹과 관련한 기술에는 언어의 차이에 의한 기술적 차별성이 커질 가능성이 많습니다.  다시 말해 한국시장의 경우, 한국어 자연어처리 기술과 웹 기술의 연계성을 확보한다면 그리 외국의 기술이 쉽사리 치고들어올 수 없는 형태의 장벽을 칠 수 있는 것이지요.  그렇지만, 완전히 따로 놀게하기 보다는 영어권의 개방형 기술과의 다리를 놓을 수 있는 가능성을 항상 열어놓고 기술개발이 되어야 할 것 입니다.  그렇게 하는 것만이, 글로벌화를 하는 동시에 국내에서의 차별화된 서비스를 할 수 있는 바탕이 될 테니까요 ...


신고
크리에이티브 커먼즈 라이선스
Creative Commons License

WRITTEN BY
하이컨셉
미래는 하이컨셉, 하이터치의 세계라고 합니다. 너무 메마르고 딱딱한 이야기보다는 글로벌 시대에 어울리는 세계 각국의 이야기, 그리고 의학과 과학을 포함한 미래에 대한 이야기의 세계로 여러분을 초대합니다.

받은 트랙백이 없고 ,

시맨틱 웹(Semantic Web)이라는 용어가 있습니다.  해석하기 조차 난감한 이 용어에 대해 제대로 알고 계시는 분 계시면 손들어 보세요?  흠 ...  별로 안계시네요 ^^;

그렇다면 들어는 보셨나요?  네 ... 많이들 들어보셨죠?  제가 2000년도에 '웹 서비스'라는 책을 쓸 때에도 차세대 웹기술로 언급되던 용어였으니까 용어 자체는 익숙할 겁니다.  많은 사람들이 또한 시맨틱 웹이라는 것이 웹 3.0의 기반기술이 될 것이라고 말하고 있기도 합니다.  그렇지만, 진정한 시맨틱 웹의 정체에 대해 제대로 쓰여진 글을 본 적이 별로 없습니다.  기껏해야 RDF나 OWL 같은 기술적인 방안에 대한 글만 몇 개 눈에 띄는 정도네요. 

며칠 전 알렉스 이스콜드(Alex Iskold)가 RWW에 기고한 글을 읽었습니다.  저 자신도 많은 것을 생각나게 하는 글이더군요.  그래서, 그의 글을 바탕으로 한번 정도 시맨틱 웹이라는 녀석을 까발리는 글을 써보아야 겠다는 마음을 먹게 되었습니다.  알렉스의 글은 아래 링크에서 읽으실 수 있습니다.  전체적으로 시맨틱 웹으로 진화해 나가기 위한 핵심기술 전반에 대해서 잘 조망하고 있는 글 입니다.

Semantic Web Patterns: A Guide to Semantic Technologies by Alex Iskold


시맨틱 웹으로의 접근방법

시맨틱 웹은 그동안 웹 페이지에 적절한 주석을 달아서 이를 기계가 이해할 수 있도록 하는 기술적인 측면으로 많이 발전했습니다.  RDF가 여기에 쓰이는 녀석으로 바텀-업(bottom-up) 방식이지요.  그에 비해 최근의 시맨틱 웹에 대한 이해는 탑-다운(top-down) 방식으로도 많이 진행되고 있습니다.  탑-다운 방식에서는 현재 존재하는 웹 페이지에 있는 정보를 축약하는 것에 초점을 맞추고 있는데, 이러한 의미추출을 자동적으로 이루어지게 하는 것이 키포인트가 되겠습니다.

바텀-업 방식의 가장 커다란 성공사례는 최근 야후(Yahoo!)에서 나왔다고 할 수 있습니다.  한국에서는 야후가 그다지 힘을 못쓰고 있어서인지 은근히 얕보는 경향이 없잖아 있습니다만, 야후 역시 뛰어난 기술력을 가진 대단한 회사입니다.  야후가 올해 3월달에 발표한 검색에서의 RDF와 microformat을 지원한다는 선언은 초창기이기는 합니다만 시맨틱 웹의 첫번 째 대규모 구현사례라고 할 수 있습니다.  이러한 바텀-업 방식의 장점은 검색엔진에서 시맨틱 웹에 충실한 웹 페이지에 인센티브를 줄 수 있기 때문에, 웹 페이지를 저작하는 수 많은 개인생산자들(블로거들 포함)이 검색엔진이 자신들의 글을 더욱 쉽게 찾아줄 수 있도록 RDF를 이용해서 주석을 다는 동기부여가 됩니다.  그리고, 야후의 검색엔진을 사용하는 사람들은 훨씬 더 자신이 원하는 정보를 쉽게 찾을 수 있게 되는 것입니다.

바텀-업 방식의 또 하나의 성과는 Dapper의 웹 서비스 입니다.  Dapper는 기존의 웹 페이지가 시맨틱 웹 페이지가 될 수 있도록 주석을 다는 Semantify라는 도구를 제공합니다.  향후 자동으로 주석을 다는 도구도 나올 것으로 생각합니다만, 이는 주로 기존에 이미 만들어낸 페이지에 대해 적용하는 것이 낫겠지요?

그렇지만, 현실적인 문제가 있습니다.  이렇게 검색엔진에서 인센티브도 주고, 도구도 나오고 해도 사실 상 수 많은 사용자들이 이를 이용할까요?  기술을 개발하는 수 많은 개발자들의 오류가 보통 여기에서 나옵니다.  이러한 접근방식은 사용자들이 편리하다기 보다는 뭔가 일거리를 하나 더 던져준 꼴이라서 생각처럼 쉽게 퍼질 것 같지는 않습니다. 

탑-다운 방식은 어떨까요?  탑-다운 방식은 자연어 처리 도구를 이용해서 페이지 내부의 의미를 추출합니다.  CalaisTextWise API는 사람이나 회사의 이름, 장소와 같은 내용을 추출하는데 탁월하고, DapperBlueOrganizer는 이런저런 사물을 잘 찾아냅니다.   탑-다운 방식의 최대 장점은 웹 페이지에서 뽑아내는 정보가 바텀-업 방식에 비해 질이 떨어지지만, 저작을 하는 사람들에게 그다지 큰 불편을 끼치지 않고, 시맨틱 웹으로 진보할 수 있다는 장점이 있습니다.


주석을 다는 기술:  RDF vs. Microformats

위에서 설명한 바텀-업 접근 방식이라는 것은 결국 웹 페이지에 주석(annotation)을 다는 기술입니다.  주석을 다는 방법도 여러가지가 있을 수 있는데, 주석을 다는 방법이 복잡하면 그만큼 웹 페이지에 대해 컴퓨터가 이해를 잘할 수 있겠지만 작업이 귀찮아질 것이고, 간단하면 완성도가 떨어지겠죠?  어쩔 수 없는 장단점이 있게 됩니다. 

주석다는 기술과 관련하여 가장 완성도가 높고, 역사가 오래된 것이 바로 RDF 입니다.  RDF는 시맨틱 웹과 관련하여 가장 오랜 역사를 가지고 있는 기술인데, 2000년도에 웹 서비스 관련된 책을 제가 집필할 당시에도 미래의 기술로 각광을 받았던 놈입니다.  어떤 의미를 정의할 때 그래프를 기반으로 한 언어를 이용해서 속성과 관계도 등을 표현할 수 있기 때문에 매우 강력합니다.  그렇지만, 언제나 이렇게 강력한 놈은 복잡하다는 치명적 약점을 보통가지고 있습니다.  RDF도 마찬가지 입니다. 


RDF는 그래프 기반의 의미를 표현하기 위한 XML 기반의 언어입니다.


RDF가 가장 많이 이용되는 곳은 의학 부분입니다.  가장 빠르게 활용된 곳이 유전자 데이터베이스를 정의하는 것 이었습니다.  다소 복잡해도 정확한 의미의 해석을 할 수 있도록 하는 것이 중요한 의학 분야에서는 RDF가 상당히 유용하다고 할 수 있겠습니다. 

Microformats는 RDF보다 단순한 접근방법입니다.  보통 기존의 HTML 문서에 특정 CSS 스타일을 이용해서 의미를 부여하는 방식입니다.  메타데이터가 컴팩트하고 실제 HTML 내부에 임베드가 될 수 있기 때문에 RDF에 비해 훨씬 빠르게 도입이 될 수 있다는 장점이 있습니다.  현재까지 가장 유명한 microformats가 hCard인데요, 보통 개인이나 회사의 연락처와 관련된 정보를 기술하는데 쓰입니다.  그리고, 리뷰 페이지의 메타 정보를 위한 hReview, 이벤트에 대한 메타 정보를 기술하는 hCalendar 등이 있습니다.

이렇게 간단하다 보니 microformats는 조금씩 인기를 얻기 시작했습니다만, 아직 널리 퍼진 정도까지는 아닙니다.  그리고, 아무래도 단순하다보니 활용에 있어서 제약이 있을 수 밖에 없습니다.  계층도를 구성하거나 기술할 방법이 없는 것이 가장 큰 약점으로 지적되는데, 고급스런 의미를 표현하는데에는 한계가 있을 수 밖에 없습니다.  일부에서는 HTML에 임베드하는 방식 자체에 대한 문제제기를 하기도 합니다.  특히 HTML 문서를 복사하거나 할 경우에 대처방법이 현재로서는 거의 없지요 ...  어찌 되었든 microformats는 최근 들어 널리 알려지며 이용되기 시작했습니다.  특히, Flickr, Eventful, LinkedIn과 같은 서비스들이 이를 지원하고 있으며, 올해 들어 야후가 검색엔진 단위에서 지원하기 시작했기 때문에 조만간 여러 회사들의 다양한 서비스들이 지원할 것으로 보입니다.

중요한 것은 이들의 접근방식이 다르고, 서로 상당부분 보완적이라는 것입니다.  웹 페이지에 주석이 많으면 많을수록 정보는 더 많을 것이고, 검색을 통해 올바른 정보를 필요로 하는 사람에게 보다 쉽게 접근이 가능할 것입니다.


시맨틱 웹, 무엇에 쓰는 물건인고?

시맨틱 웹에 대해서 이야기 할 때, 기술에 대한 이야기는 많은데 실제로 사용자들에게 어떤 이득을 줄 수 있으며 산업에는 어떤 변화를 가져올 것인가에 대한 논의는 별로되고 있지 않은 것 같습니다.  결국에는 최종사용자가 얻게될 이득이 명확하지 않으면 한낱 신기루에 불과하다는 것은, 과거 닷컴 기업 열풍에서 구글이 키워드 광고를 만들어낼 때까지 사실상 검색엔진이 아무런 산업적 가치를 찾아내지 못했던 역사에서도 알 수 있습니다.

일반적인 소비자의 경우 시맨틱 웹에서 얻을 수 있는 이득이 무엇일까요?  사실 사용자들은 시맨틱 웹 기술이 이용되든, 이용되지 않든 아무 상관하지 않지요 ...  다만 유용하면 그만입니다.  솔직히 말해서 현재까지의 시맨틱 웹의 구호는 다분히 학술적이었습니다.  기계나 컴퓨터가 정보를 이해하게 만든다는 그럴싸한 ... 멋지잖아요?  이런 측면에서는 웹 전체가 거대한 RDF 데이터베이스가 되면서 사용자들이 누구나 원하는 정보를 얻게 만들겠다는 것인데, 실제 사용될 수 있는 유용한 사례가 없다면 결국에는 묻히고 말겠지요?

현재 시맨틱 웹에 기반을 둔 애플리케이션 또는 웹 서비스로는 수직적인 검색이나 개인정보 관리 시스템, 의미를 바탕으로 한 브라우징 등이 있습니다.  이러한 애플리케이션들이 사실 아직까지는 일반적인 사용자들이 사용하기에는 어렵고 전문적입니다.  아마도 지능적인 쇼핑, 영상 스토리보드나 그림과 영상 그리고 글을 적절하게 매칭하는 서비스 등과 같은 눈에 보이고 흥미를 이끌어낼 수 있는 킬러 애플리케이션 또는 서비스가 등장해야 체감을 할 수 있을 것 같습니다.

비즈니스와 엔터프라이즈 분야는 약간 상황이 다릅니다.  소비자 시장에 비해 어느 정도는 기술적인 장점을 마케팅할 수 있는 여지가 있지요.  RDF는 XML 기반의 언어이기 때문에 표준과 상호운용성이라는 측면에서 장점이 있습니다.  이를 위해서는 기존의 관계형 데이터베이스 기반의 솔루션 들을 RDF와 XML 기반의 환경으로 변화하는 작업이 필요한데 가능성은 충분하지만 아직도 검증이 안되었으며, 레퍼런스 사이트가 적기 때문에 시장에서는 여전히 유망주로 남아있습니다.


시맨틱 웹은 가까운 미래의 웹 기술 ...

오늘은 어렵게만 느껴지는 "시맨틱 웹"이라는 용어를 조금은 쉽게 풀어내는데 초점을 맞추었습니다.  용어는 어렵지만 아주 쉽게 접근하면 현재의 단순한 웹 페이지와 기계적인 검색이라는 부분이, 다량의 데이터를 원하는데로 맞춤형으로 찾을 수 있고 또한 이를 컴퓨터가 알아서 작업할 수 있도록 도와주는 기술이라는 정도로 이해를 할 수 있겠습니다.  그 중에서 가장 기본이 되는 몇 가지 기술에 대해서 알아보았는데요, 다음 번에는 추가적으로 시맨틱 웹을 구현하기 위해 등장하고 있는 몇 가지 주요 기술에 대해서 알아보도록 하겠습니다.


신고
크리에이티브 커먼즈 라이선스
Creative Commons License

WRITTEN BY
하이컨셉
미래는 하이컨셉, 하이터치의 세계라고 합니다. 너무 메마르고 딱딱한 이야기보다는 글로벌 시대에 어울리는 세계 각국의 이야기, 그리고 의학과 과학을 포함한 미래에 대한 이야기의 세계로 여러분을 초대합니다.

받은 트랙백이 없고 ,