Picture from linkeddata.org


미래의 웹의 핵심기술이 될 Linked Data에 대해서 아십니까?  2009년 TED 미팅에서 팀 버너스리가 특히 강조를 해서 최근 그 관심도가 높아져만 가고 있는 Linked Data는 W3C의 공식 프로젝트 입니다.  위의 그림은 현재 데이터의 연결도인데, 굉장히 빠른 속도로 늘어가고 있습니다.

과거 이 블로그에서도 로이터 통신의 웹서비스 칼레이 4.0과 관련한 기술을 소개하면서 다룬 바가 있습니다.  당시에 칼레이(Calais)의 지원이 Linked Data의 활성화에 큰 도움이 될 것이라고 예상을 한 바 있는데, 불과 2개월 사이에 엄청나게 지원되는 포맷이 늘었습니다.  아래의 그림을 위의 그림과 비교를 해 보시기 바랍니다.


올해 1월 칼레이 4.0이 발표될 당시의 Linked Data

연관글: 2009/01/20 - 로이터 통신의 웹서비스 칼레이 4.0이 발표되었습니다


Linked Data는 차세대 웹의 가장 기본이 되는 데이터 네트워크가 될 것입니다.  Linked Data에 대한 자세한 정보는 아래 참고자료에 링크한 공식 홈페이지에서 구할 수 있습니다만, 위키피디아에서는 다음과 같은 기본적인 원칙을 따르는 것으로 설명하고 있습니다.

  • URI로 대표되며, 웹에 리소스로서 노출을 시킬 수 있는 어떤 것
  • HTTP URI를 이용해서 사람들이 이를 쉽게 찾아볼 수 있는 것
  • URI를 통해 참조를 했을 때 리소스에 대한 정보를 제공하는 것
  • 다른 리소스와의 링크를 포함하여 웹에서의 정보를 쉽게 찾아낼 수 있도록 함 (RDF 이용)

사실 Linked Data는 온톨로지(ontology)와 많은 연관성을 가지고 있습니다.  기존의 WordNet, FOAF, 그리고 SKOS를 엮는 것에서 출발하여, 이들의 정보 네트워크가 심화되는 방향으로 발전을 하기 시작했습니다.  사실 그동안 Linked Data는 대학이나 과학연구 수준에서만 채택이 되었고, 실질적인 상업적 이용에 사용된 사례가 거의 없었습니다.  그랬던 상황이 올해들어 급격하게 바뀌고 있는 것입니다. 

Linked Data를 이용하면 정보의 발행자가 자신의 컨텐츠를 위키피디아(Wikipedia), 지오네임즈(GeoNames), 인터넷무비 데이터베이스(Internet Movie Database, IMDB), Shopping.com과 같은 다른 Linked Data와 쉽게 연결이 가능하기 때문에, 이들의 연계를 통한 다양한 부가서비스 개발이 가능합니다.  앞으로의 차세대 웹을 이끌기 위한 가장 중요한 토양을 만들고 있는 것입니다.

결국 Linked Data에서 추구하는 방향은 시맨틱 웹과 마찬가지 입니다.  아무런 의미가 없는 섬과 같은 형태의 페이지들이 둥실둥실 떠다니는 것이 아니라, 페이지에 있는 데이터에게 생명력을 부여하고, 이들이 서로 연계가 되고 관계를 찾을 수 있도록 하는 것입니다.  비록 데이터를 만드는 사람들에게 약간의 노력이 필요하겠습니다만 ...

Linked Data에 대해 좀더 공부하시기를 원하시는 분들은 아래 참고자료를 읽어보시거나, 임베딩한 2009년도 TED 미팅에서 팀 버너스리의 강연을 들어보시기 바랍니다.




참고자료:

Linked Data 공식 홈페이지
Linked Data is Blooming: Why You Should Care by Richard MacManus

저작자 표시 비영리
신고

WRITTEN BY
하이컨셉
미래는 하이컨셉, 하이터치의 세계라고 합니다. 너무 메마르고 딱딱한 이야기보다는 글로벌 시대에 어울리는 세계 각국의 이야기, 그리고 의학과 과학을 포함한 미래에 대한 이야기의 세계로 여러분을 초대합니다.

받은 트랙백이 없고 ,

Picture from Flickr by VoIPman


다음의 새로운 전략인 "다음 뷰"에 대한 글을 쓰면서, 다시 한번 시맨틱 웹과 웹 3.0과 관련한 비즈니스 이슈에 대해서 생각을 해 보았습니다.  다음의 새로운 웹 플랫폼이 될 "다음 뷰"에 대한 포스팅은 아래 링크를 참고하시 바랍니다.

연관글:  2009/03/20 - '다음 뷰', 블로거뉴스가 차세대 웹 플랫폼으로 변신

결국 현재의 웹 환경의 다음 단계, 흔히들 웹 3.0 으로 이야기하는 차세대 웹 환경의 핵심에 서 있는 것이 바로 시맨틱 웹(semantic web)컨텍스트 웹(contextual web) 입니다.  사실 이 용어가 등장한 것이 10년이 넘었기 때문에 어찌보면 이제는 다소 식상한 느낌마저 들지만, 방향이 이쪽으로 가고 있다는 것만은 부정할 수 없는 사실 같습니다. 


시맨틱 웹이 뭐길래?

아마도 시맨틱 웹이라는 용어 만큼 기술을 설명할 때 꽤나 많이 이용되면서도 그 실체가 제대로 나타나지 않고, 또한 일반인들이 이해하기 어려운 개념도 별로 없을 것 같습니다.  좀 쉽게 표현을 한다면 웹 사이트에 있는 정보들을 보다 효과적이면서도 자신들이 원래 생각한 의도와 의미에 맞도록 제공을 하고, 동시에 정보를 찾거나 이용하는 사람들도 이러한 의미의 전달이 효과적으로 이루어지는 것이라고 할 수 있겠습니다

현재의 웹 환경은 대부분 HTML 문서들로 이루어져 있습니다.  그런데, 실제로 이렇게 수 많은 데이터들이 존재하지만 이들 사이의 연계성은 거의 존재하지 않습니다.  대부분의 웹 페이지들은 사람들이 만들기 때문에, 기계들이 이해할 수 있는 "메타 데이터(meta-data)"를 별로 고려하고 있지 않은 것이 하나의 원인입니다.  예를 들어, 웹 페이지를 표현하는 HTML 코드에 그 페이지가 담고 있는 정보(information)나 지식(knowledge)에 대한 내용이 들어가 있다면 좋겠지만, 실제로 HTML이 나타내는 것은 단지 텍스트와 이미지, 그리고 비디오 등의 멀티미디어 데이터 들이 어떻게 표현될 것인지에 대한 것입니다.  그러므로, 검색엔진들이 보내는 로봇들이 아무리 문서를 긁어오고 분석해도 실제 핵심적인 정보를 뽑아내는 것이 그리 만만하지가 않습니다. 

이런 문제를 해결하려고 시도되었던 기술들이 RDF, OWL, 지능형 수집(intelligently collecting) 등입니다만, 실제로 현재 존재하는 엄청난 수의 웹 페이지들을 처리할 수 있는 방법은 사실상 없다고 봐도 과언이 아닐 것입니다.  그런데, 최근에는 블로그나 SNS 등을 통해 새롭게 만들어지는 컨텐츠의 양이 훨씬 빠르게 늘어나고 있기에 효과적인 검색이 그 어느 때보다 절실해지고 있는 상황입니다.  결국 차세대 웹의 향배는 효과적인 검색이 쥐고 있다고 해도 과언은 아닐 것입니다.  이를 위한 가장 중요한 기술은 결국 시맨틱 웹일 수 밖에 없습니다.


자연어 처리와 컨텐츠 질의 향상

과거와 달리 블로그나 SNS 등과 같이 소비자가 만들어내는 컨텐츠가 늘어나면서, 기업의 입장에서는 고객들의 관심이 무엇인지 역으로 알아내는 것이 중요해 졌습니다.  이를 파악하기 위해서 수 많은 고객들의 웹 페이지나 블로그, SNS 컨텐츠 등을 직원들이 둘러보면서 알아보는 것도 도움이 되지만 기술적으로 보았을 때에는 자연어 처리를 통해 자동으로 컨텐츠를 요약하고 분석하는 것이 중요합니다.

자연어 처리를 통해 소비자들이 제품의 브랜드를 어떻게 느끼는지 객관적으로 알아보고, 어떤 이슈가 현재 가장 중요하며, 새로운 이슈의 성장속도와 같은 패턴을 알아낼 수 있다면 회사의 경영과 마케팅, 광고 등에 대단히 큰 도움이 됩니다.  또한, 주어진 이슈에 어떤 사람들이 영향력이 강한지 등에 대해서도 파악할 수 있을 것이며, 이런 사람들이 중요한 마케팅 대상이 됩니다.

이런 측면에서, 자연어 처리를 포함한 시맨틱 웹 기술회사들이 최근 워크플로우(workflow) 프로세스를 통해 CRM 도구로 이용할 수 있도록 하면서 시맨틱 기술들을 단순히 검색이나 모니터링 도구로 이용하는 것이 아니라 기업의 마케팅 및 관리에 있어 세련된 응답관리 도구로서의 역할까지 수행하는데 큰 관심을 가지고 있는 것을 이해할 수 있습니다.

고객들의 관심사를 파악하고 그들의 반응을 알아보는 것도 중요하지만, 현재 회사가 가지고 있는 컨텐츠들을 보다 가치있게 만드는 작업을 하는 것 역시 중요합니다.  최근 소셜 마케팅(social marketing)이 중요해지고 있는데, 이는 컨텐츠와 소셜 도구 등을 이용해서 보다 소비자들에게 깊숙하게 접근하는 것으로 앞으로 새로운 마케팅 및 광고에 있어 가장 중요한 트렌드를 형성하게 될 것입니다.


시맨틱 웹, 무엇에 쓰는 물건인고?

시맨틱 웹에 대해서 이야기 할 때, 기술에 대한 이야기는 많은데 실제로 사용자들에게 어떤 이득을 줄 수 있으며 산업에는 어떤 변화를 가져올 것인가에 대한 논의는 별로되고 있지 않은 것 같습니다.  결국에는 최종사용자가 얻게될 이득이 명확하지 않으면 한낱 신기루에 불과하다는 것은, 과거 닷컴 기업 열풍에서 구글이 키워드 광고를 만들어낼 때까지 사실상 검색엔진이 아무런 산업적 가치를 찾아내지 못했던 역사에서도 알 수 있습니다.

일반적인 소비자의 경우 시맨틱 웹에서 얻을 수 있는 이득이 무엇일까요?  사실 사용자들은 시맨틱 웹 기술이 이용되든, 이용되지 않든 아무 상관하지 않지요 ...  다만 유용하면 그만입니다.  솔직히 말해서 현재까지의 시맨틱 웹의 구호는 다분히 학술적이었습니다.  기계나 컴퓨터가 정보를 이해하게 만든다는 그럴싸한 ... 멋지잖아요?  이런 측면에서는 웹 전체가 거대한 RDF 데이터베이스가 되면서 사용자들이 누구나 원하는 정보를 얻게 만들겠다는 것인데, 실제 사용될 수 있는 유용한 사례가 없다면 결국에는 묻히고 말겠지요?

현재 시맨틱 웹에 기반을 둔 애플리케이션 또는 웹 서비스로는 수직적인 검색이나 개인정보 관리 시스템, 의미를 바탕으로 한 브라우징 등이 있습니다.  이러한 애플리케이션들이 사실 아직까지는 일반적인 사용자들이 사용하기에는 어렵고 전문적입니다.  아마도 지능적인 쇼핑, 영상 스토리보드나 그림과 영상 그리고 글을 적절하게 매칭하는 서비스 등과 같은 눈에 보이고 흥미를 이끌어낼 수 있는 킬러 애플리케이션 또는 서비스가 등장해야 체감을 할 수 있을 것 같습니다.

시맨틱 기술은 소비자와 회사들이 과거 전통적인 검색 기술에서는 찾아낼 수 없었던 정보를 찾아주는 기술입니다.  회사들은 이러한 기술의 결과로 알아낸 정보를 이용하여 자신들의 마케팅 활동을 보다 강화할 수 있으며, 소비자들에게 보다 적합한 정보를 제공할 수 있습니다.  요즘처럼 정보가 홍수처럼 넘치는 시기에는, 적절한 정보를 적기에 소비자들에게 제공할 수 있다는 것만큼 강력한 마케팅 도구는 없을 것입니다.

그런 측면에서, 시맨틱 웹과 컨텍스트 웹으로 대별되는 웹 3.0 기술의 의미는 매우 큽니다.  다음이 새로운 웹 플랫폼 기술개발에 매진하고 있는 것도 이러한 기업과 소비자들을 보다 효과적으로 연계할 수 있는 기술의 개발이 이루어질 경우 훨씬 월등한 광고수익을 얻을 수 있다는 것을 알기 때문입니다.  구글이 현재의 검색 수준으로 안주할 경우 앞으로 10년 뒤를 장담할 수 없는 이유가 여기에 있습니다.

연관글:
2008/11/19 - 웹 3.0 시대를 여는 웹서비스 API 들은?
2008/12/30 - 웹 3.0을 이끈다는 시맨틱 웹 기술의 정체 (1)
2008/12/31 - 웹 3.0을 이끈다는 시맨틱 웹 기술의 정체 (2)
2009/01/13 - 웹3.0의 핵심기술: 컨텍스트 웹을 아시나요?
2009/01/17 - 도대체 웹 3.0은 또 뭡니까?


저작자 표시
신고

WRITTEN BY
하이컨셉
미래는 하이컨셉, 하이터치의 세계라고 합니다. 너무 메마르고 딱딱한 이야기보다는 글로벌 시대에 어울리는 세계 각국의 이야기, 그리고 의학과 과학을 포함한 미래에 대한 이야기의 세계로 여러분을 초대합니다.

트랙백  2 ,

사진은 카앤드라이빙님 블로그에서 긁어왔습니다 (제가 카메라를 안 가져가서 ...)


여러 분들이 글을 올리실 줄 알았는데, 아직 조용하네요?  칫솔님께서 발표내용 자체에 대해서는 실시간으로(이것이 그 유명한 라이브 블로깅?) 올리신 글이 베스트에 올라왔고, 카앤드라이빙님도 사진들과 함께 현장감 넘치는 포스팅을 쓰셨기에 저는 다음에서 발표한 내용 자체보다는 이 개편이 가지고 있는 함의와 다음이 보고 있는 커다란 그림에 대해서 글을 써볼까 합니다.  (다음 측에서 생각하는 것이 이것이 아니라면 대략 난감이지만 ...)


다음 뷰는 블로고스피어를 넘어선 시도

제가 Q&A 시간에 다소 어려운 기술적인 질문을 하는 바람에 참석하신 여러 블로거님들이 쬐금 불편하셨을 것 같습니다.  저는 발표를 보면서 이번 개편이 단순히 블로거뉴스의 개편을 넘어서는 커다란 의도가 숨어있다는 느낌을 받았기에 이를 보다 명확하게 알고 싶었습니다.

블로거뉴스의 이름이 "다음 뷰"로 바뀐 것 역시 이와 무관하지 않습니다.  단순히 블로고스피어에 한정되지 않고 전체 웹 환경에 있어 구글의 컴퓨터 알고리즘을 이용한 검색과 수 많은 사람들의 행위를 동시에 결합한 차세대 개방형 검색엔진으로 다음 전체를 개혁하겠다는 의지가 숨어 있습니다.  "다음 뷰"는 결국 이러한 차세대 웹환경의 입구로서의 역할을 하게 될 것 같습니다.


다음, 컨텍스트 웹의 구현을 시작하다.

다음이 다음 뷰를 통해 시작하는 것은 "웹 3.0 (뭐 마케팅 용어라고들 합니다만)"의 핵심 기술로 통하는 컨텍스트 웹(Contextual Web)의 구현입니다.  사실 얼마 전까지만 해도, 웹이라는 것은 단지 밋밋한 HTML 페이지의 집합과도 같은 느낌이었습니다.  이런 페이지를 보는데 필요한 소프트웨어는 단지 웹 브라우저였고 말이지요 ...  문제는 브라우저라는 녀석은 사용자가 무슨 의도를 가지고 있는지, 그리고 무엇을 생각하는지에 대해 관심이 별로 없는 소프트웨어라는 것입니다. 

"컨텍스트(Context)"라는 것은 우리말로 번역하기가 참 어려운 용어인데, 굳이 번역을 한다면 "의도"나 "문맥, 맥" 정도가 적절할 것 같습니다.  한마디로 웹 브라우저는 컨텍스트를 이해하지 못하는 소프트웨어 입니다.  그렇기 때문에, 컨텍스트 웹이 되려면 사용자의 행위를 이해할 수 있는 어떤 장치와 디자인이 필요합니다.  기본적으로 웹 페이지가 제공하는 정보와 사용자의 행위가 결합되어 컨텍스트가 만들어질텐데, 일단 사용자의 컨텍스트를 알 수 있고 그에 대해 적절히 대응하는 웹 페이지가 만들어진다면 훨씬 유용할 것입니다.  이러한 요구사항을 만족시키는 웹 페이지나 웹 기술을 컨텍스트 웹이라고 부릅니다.  컨텍스트 웹은 시맨틱 웹과 함께 웹 3.0 시대를 여는 대표적인 기술로 주목받고 있습니다.

컨텍스트 웹이 만들어지려면 웹 사이트 구축 기술이 진보를 해야 합니다.  선택해야 할 내용은 적어지고, 의미는 더 풍부하면서 자연스럽게 흘러가야 되는 것이죠 ...  검색이 전혀 필요없는 것은 아니겠지만, 필요로 하는 정보를 얻거나 서비스를 받기 위해서 사용자가 직접 많은 것을 찾기 보다는 자연스럽게 웹 사이트와 상호작용을 하다보면 원하는 정보나 서비스에 접근할 수 있는 것 ...  그것이 컨텍스트 웹 입니다.

컨텍스트 웹에 대해 보다 자세한 내용은 제가 과거에 쓴 포스팅을 참고하시기 바랍니다.  아래에 링크합니다.

2009/01/13 - 웹3.0의 핵심기술: 컨텍스트 웹을 아시나요?


다음 뷰 기술부분 비젼을 바라보면 ...

이번 발표에서 기술적인 부분의 핵심은 다음의 3가지로 요약할 수 있습니다.

  1. 열린편집 엔진의 개방형 검색엔진화
  2. 스마트한 개인화
  3. API & 위젯 기술의 활성화

열린편집 엔진은 달리 말하면 추천엔진이라고 말할 수 있습니다.  사용자들의 추천패턴이나 글을 읽는 패턴 등을 분석하는 알고리즘이 이미 개발되어 있고, 이에 대한 충분한 실험을 블로거뉴스를 통해서 수행하였기 때문에 이를 미국의 Digg.com과 같은 형태로 완전히 개방을 할 경우, 단순히 블로거뉴스에 송고된 글 뿐만 아니라 자신들의 정보나 웹 사이트에 있는 페이지 등이 읽히기를 원하는 어떤 컨텐츠 생산자도 이를 도입할 수 있게 됩니다.  이 부분을 구체적으로 어떻게 나타날지는 조금 지켜보아야 겠습니다만, 블로고스피어를 넘어서서 일반 웹 사이트에까지도 페이지를 만든 사람의 의도에 따라 추천엔진에 노출이 된다고 이해하면 됩니다.

두번 째 스마트한 개인화 역시 열린편집과 맥이 닿아 있습니다.  여기에 추가적으로 개인에게 RSS 뷰어를 넘어서는 유니버설 뷰어 또는 통합 뷰어를 제공하면서, 독자가 자주 읽는 글의 패턴을 분석하고 추천 내용을 분석해서 넘쳐나는 정보를 맞춤형으로 제공하겠다는 것입니다.  컨텍스트 웹의 철학을 그대로 실천하겠다는 것입니다. 

API와 위젯을 보다 활성화한다면, 이러한 기술을 바탕으로한 다양한 매쉬 업이 등장할 여지를 만들 수 있을 것입니다.  이에 대해서는 아직 명확한 입장이 정해지지 않은 것 같은데, 로이터의 Calais API 등과 같은 시맨틱 웹 API를 참고하는 것이 어떨까 합니다.


다음은 이번 개편을 통해 무엇을 노리는가?

다음이 이번 개편을 통해 노리는 것은 현재 네이버가 차지하고 있는 검색 1위의 지위를 가져오겠다는 것입니다.  네이버가 검색 부분의 수위를 지키고 있는 것은 지식인의 영향이 큽니다.  그렇지만, 네이버의 검색엔진 기술이 그리 뛰어나다고는 볼 수 없습니다.  다음이 원하는 것은 이 검색 부분의 1위 자리를 차지하는 것입니다.  다음도 비즈니스를 하는 회사이기 때문에, 앞으로 대부분의 수익을 창출해낼 수 밖에 없는 검색광고 시장을 장악하기 위해서는 무엇인가 혁신적인 것을 내놓지 않고는 불가능할 수 밖에 없습니다. 

일단 개인적인 느낌으로는 방향성은 좋은 것 같습니다.  다음은 블로거뉴스를 개방형으로 운영하면서 컨텐츠 확보라는 측면에서 상당한 성과를 거두었습니다.  그러나, 최근 네이버의 오픈캐스트로 인해 컨텐츠 자체는 네이버 검색엔진 쪽으로도 넘어갈 수 있는 바, 이제는 보다 근본적인 승부를 걸어보는 것 같습니다. 

시맨틱 웹과 컨텍스트 웹으로 대별되는 소위 "웹 3.0" 기술은 지나치게 컴퓨터 기술위주로 진행이 되었기에 실제로 어려움을 많이 겪었습니다.  그렇지만, 기본적인 기술의 바탕 위에 수 많은 사용자들의 경험과 행동을 파악해서 적용할 수 있다면 성공 가능성은 충분합니다.  다음은 열린편집을 통해 일정정도 가능성을 찾은 듯하고, 이를 전면적으로 적용하려는 것이 이번 개편의 핵심입니다.


다음이 웹 3.0 기업으로 변신하는가?

웹 2.0이 분산, 참여, 공유로 대별되며, 기존의 커다란 섬으로 상징되던 포탈 기술을 작은 섬들의 집단과 이들 간의 다리를 건설하는 방식의 기술이었다면, 웹 3.0은 정보의 양이 너무 많아지기 때문에 보다 개인화되고 최적화할 수 있는 기술이 초점이 되고 있습니다. 

웹 2.0 기술과는 달리, 이러한 컨텍스트 웹과 관련한 기술에는 언어의 차이에 의한 기술적 차별성이 커질 가능성이 많습니다.  다시 말해 한국시장의 경우, 한국어 자연어처리 기술과 웹 기술의 연계성을 확보한다면 그리 외국의 기술이 쉽사리 치고들어올 수 없는 형태의 장벽을 칠 수 있는 것이지요.  그렇지만, 완전히 따로 놀게하기 보다는 영어권의 개방형 기술과의 다리를 놓을 수 있는 가능성을 항상 열어놓고 기술개발이 되어야 할 것 입니다.  그렇게 하는 것만이, 글로벌화를 하는 동시에 국내에서의 차별화된 서비스를 할 수 있는 바탕이 될 테니까요 ...


신고

WRITTEN BY
하이컨셉
미래는 하이컨셉, 하이터치의 세계라고 합니다. 너무 메마르고 딱딱한 이야기보다는 글로벌 시대에 어울리는 세계 각국의 이야기, 그리고 의학과 과학을 포함한 미래에 대한 이야기의 세계로 여러분을 초대합니다.

트랙백  5 ,

시맨틱 웹(Semantic Web)이라는 용어가 있습니다.  해석하기 조차 난감한 이 용어에 대해 제대로 알고 계시는 분 계시면 손들어 보세요?  흠 ...  별로 안계시네요 ^^;

그렇다면 들어는 보셨나요?  네 ... 많이들 들어보셨죠?  제가 2000년도에 '웹 서비스'라는 책을 쓸 때에도 차세대 웹기술로 언급되던 용어였으니까 용어 자체는 익숙할 겁니다.  많은 사람들이 또한 시맨틱 웹이라는 것이 웹 3.0의 기반기술이 될 것이라고 말하고 있기도 합니다.  그렇지만, 진정한 시맨틱 웹의 정체에 대해 제대로 쓰여진 글을 본 적이 별로 없습니다.  기껏해야 RDF나 OWL 같은 기술적인 방안에 대한 글만 몇 개 눈에 띄는 정도네요. 

며칠 전 알렉스 이스콜드(Alex Iskold)가 RWW에 기고한 글을 읽었습니다.  저 자신도 많은 것을 생각나게 하는 글이더군요.  그래서, 그의 글을 바탕으로 한번 정도 시맨틱 웹이라는 녀석을 까발리는 글을 써보아야 겠다는 마음을 먹게 되었습니다.  알렉스의 글은 아래 링크에서 읽으실 수 있습니다.  전체적으로 시맨틱 웹으로 진화해 나가기 위한 핵심기술 전반에 대해서 잘 조망하고 있는 글 입니다.

Semantic Web Patterns: A Guide to Semantic Technologies by Alex Iskold


시맨틱 웹으로의 접근방법

시맨틱 웹은 그동안 웹 페이지에 적절한 주석을 달아서 이를 기계가 이해할 수 있도록 하는 기술적인 측면으로 많이 발전했습니다.  RDF가 여기에 쓰이는 녀석으로 바텀-업(bottom-up) 방식이지요.  그에 비해 최근의 시맨틱 웹에 대한 이해는 탑-다운(top-down) 방식으로도 많이 진행되고 있습니다.  탑-다운 방식에서는 현재 존재하는 웹 페이지에 있는 정보를 축약하는 것에 초점을 맞추고 있는데, 이러한 의미추출을 자동적으로 이루어지게 하는 것이 키포인트가 되겠습니다.

바텀-업 방식의 가장 커다란 성공사례는 최근 야후(Yahoo!)에서 나왔다고 할 수 있습니다.  한국에서는 야후가 그다지 힘을 못쓰고 있어서인지 은근히 얕보는 경향이 없잖아 있습니다만, 야후 역시 뛰어난 기술력을 가진 대단한 회사입니다.  야후가 올해 3월달에 발표한 검색에서의 RDF와 microformat을 지원한다는 선언은 초창기이기는 합니다만 시맨틱 웹의 첫번 째 대규모 구현사례라고 할 수 있습니다.  이러한 바텀-업 방식의 장점은 검색엔진에서 시맨틱 웹에 충실한 웹 페이지에 인센티브를 줄 수 있기 때문에, 웹 페이지를 저작하는 수 많은 개인생산자들(블로거들 포함)이 검색엔진이 자신들의 글을 더욱 쉽게 찾아줄 수 있도록 RDF를 이용해서 주석을 다는 동기부여가 됩니다.  그리고, 야후의 검색엔진을 사용하는 사람들은 훨씬 더 자신이 원하는 정보를 쉽게 찾을 수 있게 되는 것입니다.

바텀-업 방식의 또 하나의 성과는 Dapper의 웹 서비스 입니다.  Dapper는 기존의 웹 페이지가 시맨틱 웹 페이지가 될 수 있도록 주석을 다는 Semantify라는 도구를 제공합니다.  향후 자동으로 주석을 다는 도구도 나올 것으로 생각합니다만, 이는 주로 기존에 이미 만들어낸 페이지에 대해 적용하는 것이 낫겠지요?

그렇지만, 현실적인 문제가 있습니다.  이렇게 검색엔진에서 인센티브도 주고, 도구도 나오고 해도 사실 상 수 많은 사용자들이 이를 이용할까요?  기술을 개발하는 수 많은 개발자들의 오류가 보통 여기에서 나옵니다.  이러한 접근방식은 사용자들이 편리하다기 보다는 뭔가 일거리를 하나 더 던져준 꼴이라서 생각처럼 쉽게 퍼질 것 같지는 않습니다. 

탑-다운 방식은 어떨까요?  탑-다운 방식은 자연어 처리 도구를 이용해서 페이지 내부의 의미를 추출합니다.  CalaisTextWise API는 사람이나 회사의 이름, 장소와 같은 내용을 추출하는데 탁월하고, DapperBlueOrganizer는 이런저런 사물을 잘 찾아냅니다.   탑-다운 방식의 최대 장점은 웹 페이지에서 뽑아내는 정보가 바텀-업 방식에 비해 질이 떨어지지만, 저작을 하는 사람들에게 그다지 큰 불편을 끼치지 않고, 시맨틱 웹으로 진보할 수 있다는 장점이 있습니다.


주석을 다는 기술:  RDF vs. Microformats

위에서 설명한 바텀-업 접근 방식이라는 것은 결국 웹 페이지에 주석(annotation)을 다는 기술입니다.  주석을 다는 방법도 여러가지가 있을 수 있는데, 주석을 다는 방법이 복잡하면 그만큼 웹 페이지에 대해 컴퓨터가 이해를 잘할 수 있겠지만 작업이 귀찮아질 것이고, 간단하면 완성도가 떨어지겠죠?  어쩔 수 없는 장단점이 있게 됩니다. 

주석다는 기술과 관련하여 가장 완성도가 높고, 역사가 오래된 것이 바로 RDF 입니다.  RDF는 시맨틱 웹과 관련하여 가장 오랜 역사를 가지고 있는 기술인데, 2000년도에 웹 서비스 관련된 책을 제가 집필할 당시에도 미래의 기술로 각광을 받았던 놈입니다.  어떤 의미를 정의할 때 그래프를 기반으로 한 언어를 이용해서 속성과 관계도 등을 표현할 수 있기 때문에 매우 강력합니다.  그렇지만, 언제나 이렇게 강력한 놈은 복잡하다는 치명적 약점을 보통가지고 있습니다.  RDF도 마찬가지 입니다. 


RDF는 그래프 기반의 의미를 표현하기 위한 XML 기반의 언어입니다.


RDF가 가장 많이 이용되는 곳은 의학 부분입니다.  가장 빠르게 활용된 곳이 유전자 데이터베이스를 정의하는 것 이었습니다.  다소 복잡해도 정확한 의미의 해석을 할 수 있도록 하는 것이 중요한 의학 분야에서는 RDF가 상당히 유용하다고 할 수 있겠습니다. 

Microformats는 RDF보다 단순한 접근방법입니다.  보통 기존의 HTML 문서에 특정 CSS 스타일을 이용해서 의미를 부여하는 방식입니다.  메타데이터가 컴팩트하고 실제 HTML 내부에 임베드가 될 수 있기 때문에 RDF에 비해 훨씬 빠르게 도입이 될 수 있다는 장점이 있습니다.  현재까지 가장 유명한 microformats가 hCard인데요, 보통 개인이나 회사의 연락처와 관련된 정보를 기술하는데 쓰입니다.  그리고, 리뷰 페이지의 메타 정보를 위한 hReview, 이벤트에 대한 메타 정보를 기술하는 hCalendar 등이 있습니다.

이렇게 간단하다 보니 microformats는 조금씩 인기를 얻기 시작했습니다만, 아직 널리 퍼진 정도까지는 아닙니다.  그리고, 아무래도 단순하다보니 활용에 있어서 제약이 있을 수 밖에 없습니다.  계층도를 구성하거나 기술할 방법이 없는 것이 가장 큰 약점으로 지적되는데, 고급스런 의미를 표현하는데에는 한계가 있을 수 밖에 없습니다.  일부에서는 HTML에 임베드하는 방식 자체에 대한 문제제기를 하기도 합니다.  특히 HTML 문서를 복사하거나 할 경우에 대처방법이 현재로서는 거의 없지요 ...  어찌 되었든 microformats는 최근 들어 널리 알려지며 이용되기 시작했습니다.  특히, Flickr, Eventful, LinkedIn과 같은 서비스들이 이를 지원하고 있으며, 올해 들어 야후가 검색엔진 단위에서 지원하기 시작했기 때문에 조만간 여러 회사들의 다양한 서비스들이 지원할 것으로 보입니다.

중요한 것은 이들의 접근방식이 다르고, 서로 상당부분 보완적이라는 것입니다.  웹 페이지에 주석이 많으면 많을수록 정보는 더 많을 것이고, 검색을 통해 올바른 정보를 필요로 하는 사람에게 보다 쉽게 접근이 가능할 것입니다.


시맨틱 웹, 무엇에 쓰는 물건인고?

시맨틱 웹에 대해서 이야기 할 때, 기술에 대한 이야기는 많은데 실제로 사용자들에게 어떤 이득을 줄 수 있으며 산업에는 어떤 변화를 가져올 것인가에 대한 논의는 별로되고 있지 않은 것 같습니다.  결국에는 최종사용자가 얻게될 이득이 명확하지 않으면 한낱 신기루에 불과하다는 것은, 과거 닷컴 기업 열풍에서 구글이 키워드 광고를 만들어낼 때까지 사실상 검색엔진이 아무런 산업적 가치를 찾아내지 못했던 역사에서도 알 수 있습니다.

일반적인 소비자의 경우 시맨틱 웹에서 얻을 수 있는 이득이 무엇일까요?  사실 사용자들은 시맨틱 웹 기술이 이용되든, 이용되지 않든 아무 상관하지 않지요 ...  다만 유용하면 그만입니다.  솔직히 말해서 현재까지의 시맨틱 웹의 구호는 다분히 학술적이었습니다.  기계나 컴퓨터가 정보를 이해하게 만든다는 그럴싸한 ... 멋지잖아요?  이런 측면에서는 웹 전체가 거대한 RDF 데이터베이스가 되면서 사용자들이 누구나 원하는 정보를 얻게 만들겠다는 것인데, 실제 사용될 수 있는 유용한 사례가 없다면 결국에는 묻히고 말겠지요?

현재 시맨틱 웹에 기반을 둔 애플리케이션 또는 웹 서비스로는 수직적인 검색이나 개인정보 관리 시스템, 의미를 바탕으로 한 브라우징 등이 있습니다.  이러한 애플리케이션들이 사실 아직까지는 일반적인 사용자들이 사용하기에는 어렵고 전문적입니다.  아마도 지능적인 쇼핑, 영상 스토리보드나 그림과 영상 그리고 글을 적절하게 매칭하는 서비스 등과 같은 눈에 보이고 흥미를 이끌어낼 수 있는 킬러 애플리케이션 또는 서비스가 등장해야 체감을 할 수 있을 것 같습니다.

비즈니스와 엔터프라이즈 분야는 약간 상황이 다릅니다.  소비자 시장에 비해 어느 정도는 기술적인 장점을 마케팅할 수 있는 여지가 있지요.  RDF는 XML 기반의 언어이기 때문에 표준과 상호운용성이라는 측면에서 장점이 있습니다.  이를 위해서는 기존의 관계형 데이터베이스 기반의 솔루션 들을 RDF와 XML 기반의 환경으로 변화하는 작업이 필요한데 가능성은 충분하지만 아직도 검증이 안되었으며, 레퍼런스 사이트가 적기 때문에 시장에서는 여전히 유망주로 남아있습니다.


시맨틱 웹은 가까운 미래의 웹 기술 ...

오늘은 어렵게만 느껴지는 "시맨틱 웹"이라는 용어를 조금은 쉽게 풀어내는데 초점을 맞추었습니다.  용어는 어렵지만 아주 쉽게 접근하면 현재의 단순한 웹 페이지와 기계적인 검색이라는 부분이, 다량의 데이터를 원하는데로 맞춤형으로 찾을 수 있고 또한 이를 컴퓨터가 알아서 작업할 수 있도록 도와주는 기술이라는 정도로 이해를 할 수 있겠습니다.  그 중에서 가장 기본이 되는 몇 가지 기술에 대해서 알아보았는데요, 다음 번에는 추가적으로 시맨틱 웹을 구현하기 위해 등장하고 있는 몇 가지 주요 기술에 대해서 알아보도록 하겠습니다.


신고

WRITTEN BY
하이컨셉
미래는 하이컨셉, 하이터치의 세계라고 합니다. 너무 메마르고 딱딱한 이야기보다는 글로벌 시대에 어울리는 세계 각국의 이야기, 그리고 의학과 과학을 포함한 미래에 대한 이야기의 세계로 여러분을 초대합니다.

받은 트랙백이 없고 ,