시맨틱 웹(Semantic Web)이라는 용어가 있습니다.  해석하기 조차 난감한 이 용어에 대해 제대로 알고 계시는 분 계시면 손들어 보세요?  흠 ...  별로 안계시네요 ^^;

그렇다면 들어는 보셨나요?  네 ... 많이들 들어보셨죠?  제가 2000년도에 '웹 서비스'라는 책을 쓸 때에도 차세대 웹기술로 언급되던 용어였으니까 용어 자체는 익숙할 겁니다.  많은 사람들이 또한 시맨틱 웹이라는 것이 웹 3.0의 기반기술이 될 것이라고 말하고 있기도 합니다.  그렇지만, 진정한 시맨틱 웹의 정체에 대해 제대로 쓰여진 글을 본 적이 별로 없습니다.  기껏해야 RDF나 OWL 같은 기술적인 방안에 대한 글만 몇 개 눈에 띄는 정도네요. 

며칠 전 알렉스 이스콜드(Alex Iskold)가 RWW에 기고한 글을 읽었습니다.  저 자신도 많은 것을 생각나게 하는 글이더군요.  그래서, 그의 글을 바탕으로 한번 정도 시맨틱 웹이라는 녀석을 까발리는 글을 써보아야 겠다는 마음을 먹게 되었습니다.  알렉스의 글은 아래 링크에서 읽으실 수 있습니다.  전체적으로 시맨틱 웹으로 진화해 나가기 위한 핵심기술 전반에 대해서 잘 조망하고 있는 글 입니다.

Semantic Web Patterns: A Guide to Semantic Technologies by Alex Iskold


이전 포스팅에서는 전체적인 시맨틱 웹의 개념과 가장 대표적인 일부 기술에 대한 설명을 했습니다.  이 글을 읽으시는 분들 중에서 이전 글을 읽지 않으신 분들은 아래 링크를 따라가셔서 이전 글을 일고 오시면 훨씬 이해가 빠르실 것입니다.

2008/12/30 - [Health 2.0 vs. Web 2.0] - 웹 3.0을 이끈다는 시맨틱 웹 기술의 정체 (1)



시맨틱 API의 등장

시맨틱 웹 애플리케이션이 어느 정도 인지도를 쌓아나가고 있고, 야후의 본격적인 검색 서비스가 시작된 올해, 이에 발을 맞추어 시맨틱 API도 활성화 되기 시작합니다.  시맨틱 API의 역할은 비구조화된 일반적인 문서나 웹 페이지를 입력으로 넣으면, 그 속에 있는 엔티티와 엔티티 사이의 관계(relationship)를 자동으로 찾아내는 것이 가장 중요하겠지요?  그러므로, 작은 자연어 처리도구 같은 형태의 서비스를 생각할 수 있습니다.

시맨틱 API로 가장 먼저 등장한 것이, 세계적인 통신사 로이터(Reuter)Open Calais API 입니다.   이 API는 텍스트 문장을 받아들으면, 그 속에 등장하는 사람과 장소, 그리고 회사 등의 이름을 찾아냅니다.  그리고, 찾아낸 이름 들의 목록과 함께 문서의 어느 위치에서 이들을 발견했는지를 알려줍니다.  기본적으로 Calais는 강력한 자연어 처리 기술을 개발한 Clear Forest라는 회사의 기술을 이용하는데, 로이터가 이 회사를 합병하면서 Open Calais를 내놓았습니다.  Calais는 확장성이 좋기 때문에, 새로운 기능과 API 등이 계속 추가될 것으로 기대됩니다.  우리나라에서도 네이버나 다음, 네이트 아니면 조중동(바랄 것을 바래야 되나?)에서 이런 기술 개발을 해 주어야 하지 않나 싶습니다.  한글은 상당히 다르기 때문에 진입장벽을 칠 수 있거든요 ...  아무래도 첫눈을 인수한 네이버나 지식발전소 엠파스를 먹어버린 네이트에서 해 줘야 될 것 같은데 과연 어떨지요? 

그 다음으로 등장한 것이 텍스트와이즈(TextWise)SemanticHacker API 입니다.  이 API는 문서 내에 있는 정보를 시맨틱 서명(semantic signature)이라고 불리는 카테고리로 분류합니다.  Calais와 비슷하지만, 카테고리 분류를 통해 계층적 구조를 전달해 준다는 측면에서 차이가 있습니다.

또한, 현재 시맨틱 웹 서비스와 관련하여 가장 앞선 기업으로 평가받는 Dapper 역시 시맨틱 API를 공개하고 있습니다.  웹 페이지를 입력하면 웹 페이지 HTML 문서를 분석해서 구조화 정보를 추출하는 것인데, Dapper는 사용자들이 페이지에 객체의 속성을 정의할 수 있도록 했습니다.  예를 들어, 책을 발행하는 사람이 책과 관련된 페이지의 정보를 구조화 한다고 하면 ISBN, 저자(author), 페이지 수 등과 같은 전형적인 정보를 미리 줄 수가 있고, 이 정보를 활용해서 구조화를 합니다.

Dapper API의 가장 큰 장점은 웹 사이트에서 공개하는 서비스를 마치 API 처럼 활용할 수 있다는 점입니다.  웹 사이트를 이용하는 방식으로 이런 서비스를 즐길 수도 있습니다.  Dapper의 성장세가 가파른 것도 이러한 쉬운 접근방식에도 있지 않나 생각해 봅니다.



시맨틱 웹을 지원하는 차세대 검색 서비스

이런저런 기술적인 부분에 대한 논의들도 많지만, 결국 시맨틱 웹이 활성화되는 것은 검색엔진의 업그레이드를 통해서 일 것입니다.  현재 시맨틱 웹 기술을 최대한 활용하여 검색 사용자가 원하는 정보를 찾아주는 차세대 검색엔진 기술의 개발이 큰 이슈인데요, 이 분야에 있어서 가장 앞서 있는 두 회사는 Hakia와 PowerSet 입니다.   Hakia의 경우 올바른 건강의료정보의 검색을 위한 Health Hakia라는 서비스도 런칭하고 있는데, 개인적으로 관심을 많이 가지고 보고 있습니다.  API도 오픈되어 있어서 어느 정도 성공할 수 있지 않을까? 기대는 하고 있습니다.

이들의 기술은 상당히 높게 평가받고 있지만, 시장에서의 반응은 아직 ... 입니다.  특히, 구글의 통계적 분석을 이용한 빠른 검색이 왠만한 질문에 대해서는 그런데로 높은 적중률을 보여주고 있기에, 이들이 시장에서 커가는 것이 그리 녹녹치는 않아 보입니다.  결국에는 구글이나 야후와 같은 메이저들에 의한 사냥감이 되어 버리지 않을까 싶기도 하구요 ...

또 한가지 방법은, 일단 걸러낸 검색 결과를 가지고서 검색결과를 2차적인 카테고리화를 한다거나, 구조화를 시켜서 보다 쉽게 원하는 정보를 서비스하는 애프터서비스 형식의 적용을 생각해 볼 수 있습니다.  이 부분은 구글 내부에서도 상당히 높은 관심을 가지고 연구를 하고 있는 것으로 알려지고 있습니다.



시맨틱 데이터베이스

시맨틱 웹 기술이 활성화 되기 위해서는, 웹 기반의 시맨틱 데이터베이스도 중요한 역할을 할 것으로 예측됩니다.  몇 가지 형태의 시맨틱 데이터베이스가 이미 선을 보이기 시작했습니다.  레이터 네트웍스(Radar networks)는 트와인(Twine)이라는 인명 지식베이스(Personal Knowledge Base) 서비스를 현재 베타 서비스 중에 있습니다.  다양한 형태의 컨텐트를 이용해서 사람의 이름과 회사, 위치나 관련정보를 자동적으로 분류하고 이를 지식베이스에 업데이트를 하는데, 특정 웹 페이지의 북마크나 이메일, 그리고 수동으로 업데이트하는 자료 등을 바탕으로 지속적인 업데이트가 이루어 집니다.  이렇게 특화된 지식베이스는 향후 다양한 형태의 응용서비스에 이용될 수 있을 것입니다.  예를 들어, 사람을 찾거나 CRM, 그리고 마케팅 등과 같은 영역에서 널리 이용될 수 있겠지요?  다소간의 프라이버시 문제가 있을 수 있겠습니다만, 이미 오픈된 정보를 중심으로 한다면 그렇게 큰 문제의 소지는 없으리라 생각됩니다.

메타웹(Metaweb)에서 제공하는 서비스인 프리베이스(Freebase)도 눈여겨 보아야 할 것 같습니다.  RDF 기술을 이용해서 여러 정보를 구조화시킨 것이 인상적입니다.  어찌보면 위키피디아의 업그레이드 버젼과 같은 인상이라고할까요?  앞으로의 발전이 기대되는 서비스입니다.



앞으로의 발전이 기대되는 시맨틱 데이터베이스 - 프리베이스(Freebase)

프리베이스의 가장 큰 문제는 아마도 서버를 어떻게 관리할 것인가?의 문제입니다.  엄청난 속도로 커지고 있는 웹 페이지를 구조화해서 저장하려면, 구글과 마찬가지로 거대한 클라우딩 서버군이 필요할텐데, 규모의 싸움에서 이기기가 힘들다는 것이 문제입니다.  현재는 주로 위키피디아와 참여하는 개인의 정보를 위주로 진행하기 때문에, 정보의 절대량의 측면에서 따라가고 있습니다만, 결국 전체 웹을 대상으로 데이터베이스화 해야 한다고 볼 때 결국 구글이나 마이크로소프트, 야후 등과의 빅딜이 필요할 것으로 보입니다.



웹 3.0 시대는 언제?

이상으로 웹 3.0의 핵심기술로 지목되고 있는 시맨틱 웹에 대해서 간략하게 둘러보았습니다.  웹 2.0이 분산, 참여, 공유로 대별되며, 기존의 커다란 섬으로 상징되던 포탈 기술을 작은 섬들의 집단과 이들 간의 다리를 건설하는 방식의 기술이었다면, 웹 3.0은 정보의 양이 너무 많아지기 때문에 보다 개인화되고 최적화할 수 있는 기술이 초점이 되고 있습니다.  그런 측면에서 시맨틱 웹과 관련된 기술들이 속속 등장하고 있는 것이지요 ...  

웹 2.0 기술과는 달리, 시맨틱 웹과 관련한 기술에는 언어의 차이에 의한 기술적 차별성이 커질 가능성이 많습니다.  다시 말해 한국시장의 경우, 한국어 자연어처리 기술과 웹 기술의 연계성을 확보한다면 그리 외국의 기술이 쉽사리 치고들어올 수 없는 형태의 장벽을 칠 수 있는 것이지요.  그렇지만, 완전히 따로 놀게하기 보다는 영어권의 개방형 기술과의 다리를 놓을 수 있는 가능성을 항상 열어놓고 기술개발이 되어야 할 것 입니다.  그렇게 하는 것만이, 글로벌화를 하는 동시에 국내에서의 차별화된 서비스를 할 수 있는 바탕이 될 테니까요 ...


신고

WRITTEN BY
하이컨셉
미래는 하이컨셉, 하이터치의 세계라고 합니다. 너무 메마르고 딱딱한 이야기보다는 글로벌 시대에 어울리는 세계 각국의 이야기, 그리고 의학과 과학을 포함한 미래에 대한 이야기의 세계로 여러분을 초대합니다.

받은 트랙백이 없고 ,