Korean subtitles for clip: File:From Encyclopedia to Big Data Past, present and future of Wikipedia data as a research source.webm

From Wikimedia Commons, the free media repository
Jump to navigation Jump to search
1
00:00:00,000 --> 00:00:05,000
안녕하세요, 다들 환영합니다! 제 이름은 슬라비나입니다.

2
00:00:05,000 --> 00:00:14,000
저는 현재 위키미디어 재단의 무급 인턴으로 근무하고 있으며, 이 강연은 사전 녹화한 영상이긴 하지만 위키마니아에 참여한다면

3
00:00:14,000 --> 00:00:18,000
이 강연이 재생되는 동안 제가 채팅으로 답변을 해드리겠습니다.

4
00:00:18,000 --> 00:00:24,000
만약 질문이 있다면 자유롭게 물어보고 싶은 것을 물어보면 됩니다.

5
00:00:24,000 --> 00:00:30,000
저는 오늘 여러분들에게 위키백과와 빅 데이터에 관해 말하고자 합니다.

6
00:00:30,000 --> 00:00:39,000
왜 빅 데이터일까요? 오늘날 위키백과는 현존하는 지식 저장소 중 가장 큰 곳입니다.

7
00:00:39,000 --> 00:00:51,000
하지만, 당신이 평범한 사용자라면 수백 개의 언어의 수백만 개의 문서들 중 상대적으로 극히 일부만을 볼 수 있을 것입니다.

8
00:00:51,000 --> 00:01:02,000
영어 위키백과에 있는 모든 문서만을 읽기만 하더라도, 당신은 쉬지 않고 17년간 읽어야 합니다.

9
00:01:02,000 --> 00:01:09,000
반면, 당신이 일반 데스크탑 컴퓨터와 약간의 프로그래밍 지식이 있다면,

10
00:01:09,000 --> 00:01:17,000
모든 문서 콘텐츠를 분석할 수 있을 뿐 아니라 존재하는 모든 데이터들도 분석할 수 있죠.

11
00:01:17,000 --> 00:01:29,000
그 데이터에는 편집자 활동, 페이지 뷰, 유저가 다른 문서들을 링크를 클릭 이동하는 수가 어느 정도 되는지 정도를 단 몇시간 만에 말이죠

12
00:01:29,000 --> 00:01:47,000
그래서, 이번 강연에서는 브라우저를 통해 개별 문서로 이동하지 않고, 근본 데이터 자체에 접속해 분석하는 다른 종류의 사용자에 대해 설명하러 합니다.

13
00:01:47,000 --> 00:01:57,000
또한 이런 방법으로 접근하는 사람들은 거대한 건초더미 속에 숨겨진 바늘같은 다른 통찰을 얻을 수 있습니다.

14
00:01:57,000 --> 00:02:00,000
그럼 왜 이걸 신경써야 할까요?

15
00:02:00,000 --> 00:02:07,000
이 방식으로 위키백과를 이용하는 사용자들은 거의 매우 일부분의 사용자만을 대표할 것입니다.

16
00:02:07,000 --> 00:02:19,000
하지만 그들의 기여는 사회과학이나 기업의 의사결정, 국제 정책과 같은 분야에서 매우 큰 영향을 줄 수 있습니다.

17
00:02:19,000 --> 00:02:22,000
그럼 이제부터 구글스칼라를 깊게 들여다보죠.

18
00:02:22,000 --> 00:02:28,000
구글스칼라는 학계 논문을 검색할 수 있는 검색 엔진입니다.

19
00:02:28,000 --> 00:02:36,000
여기에다가 "Wikipedia"를 검색하면, 약 2백만 건이 넘는 논문이 검색됩니다.

20
00:02:36,000 --> 00:02:43,000
이건 꽤 놀라운 결과입니다. 하지만, 같은 검색을 기준 날짜를 2012년으로 잡는다면,

21
00:02:43,000 --> 00:02:53,000
약 20만개도 안 되는 검색 결과가 나오는데, 이는 10년만에 위키백과와 관련된 연구 팩터가 무려 10배나 증가했다는 말입니다.

22
00:02:53,000 --> 00:02:58,000
이 논문들 중 몇몇개를 골라서 깊게 파고들어가보죠.

23
00:02:58,000 --> 00:03:00,000
(논문: 위키피디아 읽기로 오픈도메인 QA 구축)

24
00:03:00,000 --> 00:03:11,000
2017년 스탠포드 대학과 페이스북의 연구진이 수행한 이 연구는 AI가 질답 시스템을 구축하는 데 위키백과를 이용합니다.

25
00:03:11,000 --> 00:03:19,000
질답 시스템(QA System)이란 시리나 알렉사 같은 버추얼 보조 시스템으로,

26
00:03:19,000 --> 00:03:27,000
당신이 이 (시스템)에 질문을 한다면 정해진 시간 이내에 적절한 답변을 해 주길 기대할 수 있습니다.

27
00:03:27,000 --> 00:03:37,000
이 연구에서 제가 여기서 찾은 흥미로운 점은 이 질답 시스템은 위키백과에서 답을 찾는 것 뿐 만이 아니라,

28
00:03:37,000 --> 00:03:45,000
물론 이것 자체로도 큰 가치가 있지만, 다른 상황으로도 쉽게 옮길 수 있다는 점도 있습니다.

29
00:03:45,000 --> 00:03:49,000
이를테면 당신이 엄청난 양의 의학 관련 문서를 가지고 있다고 해 봅시다.

30
00:03:49,000 --> 00:04:00,000
그러면 질답 시스템은 새로운 지식 기반을 통해서 질문에 답변을 해 줄 수 있고, 의사가 환자를 진단하는 등에 도움을 줄 수 있겠죠.

31
00:04:00,000 --> 00:04:11,000
이 경우 위키백과는 그 자체로 유용할 뿐 아니라 더 넓은 용도로 사용할 수 있는 새로운 시스템을 만들 수 있는 도구이기도 합니다.

32
00:04:11,000 --> 00:04:16,000
이제 다른 연구로 가 보죠.

33
00:04:16,000 --> 00:04:24,000
이 연구진들은 거대한 양의 사회적, 경제학적 데이터를 모으는 데 위키백과를 이용했습니다.

34
00:04:24,000 --> 00:04:35,000
(이 데이터는) 특히 가난하거나 접근하기 어려운 지역이나 국가의 데이터인 경우 모으는 데 많은 시간과 비용이 들 수 있었습니다.

35
00:04:35,000 --> 00:04:40,000
하지만 많은 문서가 지리위치가 찍혀 있어 데이터 수집이 가능했습니다.

36
00:04:40,000 --> 00:04:46,000
이 예시에서는 우간다의 수도인 캄팔라에 대한 위키백과 문서를 참고했습니다.

37
00:04:46,000 --> 00:04:54,000
강조된 문구에서는 캄팔라가 "지구상에서 13번째로 인구증가율이 높은 도시"라고 적혀 있죠.

38
00:04:54,000 --> 00:05:06,000
이 연구에서는 이와 같은 수백만 개의 문구를 분석한 내용을 인공위성 사진이나 설문조사 자료 같은 지리위치 데이터와 한데 합칠 때,

39
00:05:06,000 --> 00:05:14,000
각각의 데이터를 따로 사용할 때 보다 전반적으로 더 좋은 질의 데이터셋을 얻을 수 있었다고 합니다.

40
00:05:14,000 --> 00:05:20,000
또한 이 데이터에는 달리 획득하거나 구하기 매우 어려운 내용도 있습니다.

41
00:05:20,000 --> 00:05:29,000
이해관계자를 납득시킬 수 있는 올바른 데이터를 얻는 것은 당신의 인도주의적 계획이 자금 지원을 받을 지 받지 못할 지를 가릅니다.

42
00:05:29,000 --> 00:05:37,000
유엔과 같은 지역연합체는 그들의 빈곤 구제나 기초 학습 지원에 초점을 두고 있습니다.

43
00:05:37,000 --> 00:05:46,000
하지만 위키백과 데이터를 전혀 다른 용도인 트랜드와 미래 예측에 사용한 연구도 있습니다.

44
00:05:46,000 --> 00:05:53,000
이 연구에서는 과학자들이 약 300여 개의 박스오피스 영화의 성공을 개봉 이전에 예측하는 시도를 하였습니다.

45
00:05:53,000 --> 00:05:59,000
위키백과 내 영화와 관련된 문서의 페이지뷰와 편집 횟수를 연구해서 말이죠.

46
00:05:59,000 --> 00:06:08,000
이런 예측을 하는 전형적인 방법은 감정 분석을 하는 것인데, 보통은 트위터 같은 것을 이용합니다.

47
00:06:08,000 --> 00:06:18,000
누군가가 트윗을 한다고 치죠. 예를 들면 "영화 너무 보고 싶어"나 "난 감독의 진짜 팬이야!" 같은 것 말이죠. 그러면 이 트윗들을 긍정적 감정 갯수로 셉니다.

48
00:06:18,000 --> 00:06:28,000
반대로, 누군가가 "모든 이들이 이 영화에 대해 얘기하고 있는데, 난 이거에 대해 말하는 거 별로 같은데" 같은 트윗이 있다고 하면, 부정적 감정 갯수로 셉니다.

49
00:06:28,000 --> 00:06:39,000
하지만 이 연구에서는 저자가 감정 분석을 사용하지 않고 순수하게 통계적 방법만 사용하고도 좋은 결과를 만들 수 있음을 알아냈습니다.

50
00:06:39,000 --> 00:06:48,000
이 뜻은, (통계학적) 방법이 언어와 문맥 둘 다에 종속되고 (영화 호불호 예측 외에) 다른 용도로도 충분히 사용할 수 있다는 말입니다.

51
00:06:48,000 --> 00:06:55,000
이 그래프에서는 추정 수익과 실제 수익 간의 관계를 볼 수 있습니다.

52
00:06:55,000 --> 00:07:06,000
여기서 대부분의 점들이 직선과 근접해 있다는 것을 볼 수 있고, 선 위의 점들은 예측이 완벽히 들어맞았다는 것으로 이정도면 성공적인 예측인 셈입니다.

53
00:07:06,000 --> 00:07:15,000
하지만, 위키백과만큼 크고 복잡한 것은 본질적으로 작업하기 매우 어렵습니다.

54
00:07:15,000 --> 00:07:23,000
데이터들은 수많은 서로 다른 표로 흩어져 있고, 수많은 데이터베이스들도 분산되어 있기 때문입니다.

55
00:07:23,000 --> 00:07:36,000
또한 대부분의 경우 다양한 곳에서 온 데이터를 분석하기 위한 플랫폼에 옮기기 전에 먼저 파싱하고, 필터링하고, 합치는 과정이 필요합니다.

56
00:07:36,000 --> 00:07:43,000
그래서 단지 적절한 데이터를 어디서 찾고 발췌하는지 이해하는 것도 어렵습니다.

57
00:07:43,000 --> 00:07:51,000
특히 기술적인 지식이 많이 없거나 위키미디어에 친숙하지 않은 사용자의 경우 그렇습니다.

58
00:07:51,000 --> 00:07:57,000
일부 연구에서는 이를 다음과 같이 분명하게 언급하기도 합니다.

59
00:07:57,000 --> 00:08:07,000
"과학 분야의 보물과도 같지만, 거대한 데이터셋이 전처리 과정에 숨겨져 있었고 이어질 새로운 연구에게 있어서 험난한 장애물일 것이다."

60
00:08:07,000 --> 00:08:17,000
"이 문제는 연구자가 기술적인 분야 지식과 데이터 처리 요령이 부족한 과학 분야에서 특히 심각합니다."

61
00:08:17,000 --> 00:08:27,000
이런 복잡함을 완화하기 위해 이를 연구할 연구자들이 데이터를 처리하기 위한 자기만의 스크립트나 프레임워크를 갖추기도 하고,

62
00:08:27,000 --> 00:08:31,000
(연구자들은) 이를 깃헙에 공유하기도 합니다.

63
00:08:31,000 --> 00:08:36,000
다음은 하나의 예시인데 누군가가 "wikiextractor"(위키발췌기)라는 것을 만들어냈습니다.

64
00:08:36,000 --> 00:08:43,000
우리는 깃헙에 공유된 이 코드가 2,700개가 넘는 별을 받고, 800개 가까운 포크가 만들어진 것을 볼 수 있습니다.

65
00:08:43,000 --> 00:08:51,000
이는 별 것 아닌 것처럼 보일 수도 있지만, 실제로 존재하는 문제가 발생하는 데 있어 나쁘지만은 않습니다.

66
00:08:51,000 --> 00:09:02,000
끝으로, 저는 위키백과에 기여할 수 있는 방법은 정말로 많으며, 이것이 기여할 수 있는 한 가지 방법이 될 수 있다고 말하고 싶습니다.

67
00:09:02,000 --> 00:09:09,000
당신이 만일 더 나은 개발 도구를 만들거나 기술적 문서를 향상시키는 데,

68
00:09:09,000 --> 00:09:18,000
혹은 당신이 위키백과 데이터를 다루거나 활동하는 데 있어 직접 겪었던 문제들을 공유하는 데에라도 관심이 있으시다다면,

69
00:09:18,000 --> 00:09:22,000
어떤 기여를 하시든지 환영합니다!

70
00:09:22,000 --> 00:09:31,000
다음 (슬라이드)는 설명드렸던 논문과 기타 추가정보에 관한 링크입니다.

71
00:09:31,000 --> 00:09:38,000
어떤 질문이라도 있으시다면 제 토론 문서에 작성해주신다면 환영합니다.

72
00:09:38,000 --> 00:09:42,000
감사합니다.