Ex) Article Title, Author, Keywords
Ex) Article Title, Author, Keywords
New Phys.: Sae Mulli 2023; 73: 385-394
Published online April 30, 2023 https://doi.org/10.3938/NPSM.73.385
Copyright © New Physics: Sae Mulli.
Sunmo Koo1, Sangjoon Park1, Yongsung Kwon1, Mi Jin Lee2∗, Seung-Woo Son1,2†
1Department of Applied Artificial Intelligence, Hanyang University, Ansan 15588, Korea
2Department of Applied Physics, Hanyang University, Ansan 15588, Korea
Correspondence to:*E-mail: mijinlee@hanyang.ac.kr
†E-mail: sonswoo@hanyang.ac.kr
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License(http://creativecommons.org/licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
A service provider must understand the unique characteristics of the users to recommend appropriate products. Factors such as personality, social class, and hobbies can be used to identify the user and improve recommendations. This information can be obtained through direct questioning or analyzing user-generated content such as blog posts. This study uses a large language model and transfer learning to extract specific information, such as taste and knowledge, from text. The author’s characteristics are then embedded using a recurrent neural network and a triplet loss metric learning methodology to distinguish between users. Qualitative insights into their similarities were then obtained from analyzing the label distribution in the embedding space.
Keywords: User analysis, Natural language processing, Metric learning, Triplet loss
서비스 운영주체가 사용자들 각각에 맞는 제품을 추천하기 위해 사용자의 특징을 아는 것은 중요하다. 사용자의 특징이 될 수 있는 요소들은 성격, 사회계층, 취미 등이 존재한다. 사용자들의 정확한 특징 정보를 얻는 데에는 설문 조사가 유용하다. 하지만, 개인정보와 관련된 이유로 공개를 꺼리는 경우가 많다. 반면, 사용자들은 블로그나 소셜 네트워크 서비스의 게시물을 통해 개인의 특징을 자연스레 드러낸다. 본 연구에서는 삼중항 손실을 기반으로 게시된 블로그 글에서 사용자들의 특징 정보의 추출 가능성을 확인하였다. 거대 언어 처리 모델인 Sentence-BERT를 통해 블로그 게시글의 정보를 잠재공간에 투영하였다. 투영된 정보들을 삼중항 손실함수를 이용해 비슷한 특징일수록 가깝게, 다른 특징일수록 멀게 위치하게 하여 사용자들의 특징이 구별되도록 학습을 진행하였다. 이러한 게시물을 통한 사용자의 특성 분석은 개인화된 추천 시스템의 개선에 활용될 수 있을 것으로 기대된다.
Keywords: 사용자 분석, 자연어 처리, 메트릭 학습, 삼중항 손실
디지털화가 가속됨에 따라 예전에는 버려졌을 데이터들이 다양한 방법으로 수집, 저장되고 있다. 많은 양의 데이터에서 그 의미를 쉽게 알아낼 수는 없지만, 최근 기계학습을 이용한 빅데이터 분석이 발전하여 거대한 데이터 속에 숨어있는 정보를 끄집어 내고 있다[1-5]. 특히 음악, 영상, 글 등의 콘텐츠를 제공하는 서비스나 e-커머스와 같은 산업 분야에서는 사용자들의 성향을 파악하여 보다 소비율이 높을 서비스 및 상품을 추천하고자 한다. 사용자들은 개별 콘텐츠나 상품을 인지하고, 본인의 욕구에 적합한지 고려한 뒤, 최종적으로 구매 및 소비하는 과정을 거치게 된다. 첫 두 단계에서 사용자는 방대한 양의 선택지를 인지, 분석해야 하는데, 이는 사용자에게 상당한 피로감을 준다[6]. 이를 피하고 사용자의 선택율을 높이기 위해 서비스 제공자는 전체 사용자로부터 선호 순으로 아이템을 정렬하는 ‘랭킹 시스템’ 또는 개별 사용자의 특성을 반영하여 아이템을 제시하는 ‘추천 시스템’을 발전시켜 왔다. 초기에는 규칙기반 추천 모델이 사용되어 왔으나, 최근에는 기계학습이 높은 신뢰도를 보여주며 주된 방법으로 자리 잡고 있다.
보통 기계학습을 이용해 서비스와 제품을 추천하기 위해서는 ‘추론 모델’, ‘사용자 정보’, 그리고 ‘아이템 정보’가 필요하다. 추론 모델과 아이템 정보는 서비스 제공자가 고려하는 부분이지만, 사용자 정보의 경우 사용자 기록에서 직접 수집을 해야했다. 정확한 방법으로는 질의, 응답을 이용해 사용자들의 정보를 얻을 수 있지만, 개인정보 수집에 대한 거부감과 질의에 대한 응답을 직접 입력하는 번거로움이 문제가 된다. 이처럼 사용자들의 소극적인 태도로 서비스 제공자들은 추천 시스템을 위한 충분한 정보를 직접 얻기가 어렵다. 따라서 최근에는 사용자들의 검색 패턴을 이용하는 등 사용자들의 활동 기록으로부터 정보를 간접적으로 얻기 위한 방법들이 개발되었다[7]. 그러나 검색 패턴이나 사용자 기록에도 사용자가 의도하지 않은 실수가 함께 섞이는 등의 문제가 존재한다.
인터넷 상에는 사용자들의 검색 패턴 이외에도 직접 자신을 표현하는 유용한 정보가 존재한다. 블로그, 소셜 네트워크 서비스(SNS) 등에서 사람들은 자신의 생각, 경험, 좋아하는 주제 등을 공유한다. 사람들에게는 자기표현에 대한 욕구가 있으며, 인터넷에서 흔히 사용되는 자기표현의 수단은 텍스트를 활용한 방법이다. 블로그 또는 SNS의 사용자는 의도적으로 때론 의도치 않게 자신의 특징이 반영된 게시글을 텍스트 형태로 게재한다. 이러한 텍스트에는 주제와 키워드 뿐만 아니라 저자의 생각, 습관, 문체 등이 내포되어 있다. 따라서 사용자들의 검색 패턴과 더불어 게시글 데이터는 유용한 사용자 기록 데이터가 된다. 이를 바탕으로 서비스 제공자들은 사용자들에게 보다 알맞은 제품과 서비스를 제공할 수 있다[8].
사용자의 특성이란 성격과 같이 다양하며 이산적으로 명확하게 분리하기 어렵다. 다양한 정보에 대해 충분한 성능을 발휘하는 모델을 학습시키기 위해서는 많은 양의 데이터가 필요하다. 하지만 충분한 양의 데이터를 확보하는 것이 항상 가능한 것은 아니다. 비교적 적은 데이터 양의 한계는 메트릭 러닝(metric learning)을 이용해 해결되어 왔다. 메트릭 러닝 중 삼중항 손실(triplet loss)라는 방법이 있으며, 이 방법은 이전 연구에서 서로 다른 각도의 이미지를 이용해 사람을 재인식하는 연구에서 이용되었다 [9]. 삼중항 손실은 기준이 되는 ‘앵커(anchor)’와 같은 라벨인 ‘양성(positive)’, 다른 라벨인 ‘음성(negative)’에 대한 비교를 통해 계산되며, 선택된 앵커와 양성의 거리는 좁게, 음성과의 거리는 멀게 파라미터를 조절한다. 보통 클래스(라벨) 내 및 클래스 간 차이는 클래스마다 크게 다를 수 있으므로 일치하는 쌍과 일치하지 않는 쌍 사이의 거리를 절대 범위 내에 두도록 요구하는 것은 부적절할 수 있다. 본 연구에서는 사람의 여러 각도의 이미지가 아닌, 다양한 종류의 게시글을 이용해 한 저자를 재인식하는 문제를 다룬다. 이전 연구에서와 같이, 각 저자가 작성한 글의 수가 비교적 적을 뿐더러 저자의 특성은 이산적으로 명확히 분리하기 어렵기 때문에 절대적 기준으로 데이터를 나눌 수 없기에 삼중항 손실 방법을 이용했다. 삼중항 손실을 사용하기 위해서는 양성과 음성인 쌍을 선택하는 과정이 필요하고, 이를 삼중항 마이닝(triplet mining)이라고 한다. 삼중항 마이닝으로 음성을 하나만 선택할 수도 있지만, 여러 개를 선택하는 경우 음성을 선택하는 기준에 따라 ‘배치 전체(batch all)’[9], ‘배치 하드(batch hard)’[10] 그리고 ‘배치 세미 하드(batch semi-hard)’[11] 전략으로 나눈다. 본 연구에서는 배치 세미 하드 전략과 배치 전체 전략을 활용하여 모델이 학습할 때 다양한 음성 데이터를 반영할 수 있도록 하였다.
본 연구는 사용자들의 블로그 게시글을 잠재공간(latent space)에 투영하여 저자의 특성을 벡터화하였다. 거대 언어 모델인 Sentence-BERT[12]를 이용하여 글에 포함된 문장들을 각각 벡터화한 후, 벡터화된 문장들을 순환 신경망 모델 중 하나인 Gated Recurrent Unit(GRU)를 통해 문장 순서 정보를 반영하여 하나의 게시글을 잠재공간에 투영하였다. 잠재공간 상에서 같은 저자가 작성한 게시글들은 가깝게, 유사하지 않은 글들은 멀리 있도록 배치하기 위해 삼중항 손실을 사용하여 GRU 모델을 미세조정(fine tuning) 하였다. 그 결과 같은 저자의 글들이 잠재공간에 가깝게 모이도록 할 수 있었고, 잠재공간에서 한 사람의 특성을 표현할 수 있음을 확인하였다.
2006년 Jonathan Schler에 의해 공개된 블로그 게시글 말뭉치(Blog Authorship Corpus)로 개별 블로그 게시글에 대해 “저자 식별자(ID)”, “성별(gender)”, “연령(age)”, “관심 주제(topic)”, “별자리(sign)” 항목에 대한 라벨이 포함되어 있다[13].
웹 사이트 Blogger.com에서 1999년 1월 1일부터 2006년 8월 23일까지 작성된 블로그 게시글로 19,320명의 저자가 작성한 681,288개의 글을 포함한다.
이 중 전처리를 통하여 순환 신경망 모델이 학습하기 적합하도록 2개 이상의 문장으로 이루어진 텍스트를 선별하여 584,643개의 게시글로 구성된 데이터를 만들었다.
본 연구에서 학습되는 모델은 시간 순서로 연결된 데이터를 입력값으로 받는 순환 신경망 모델이기 때문에, 원본 데이터로부터 단일 문장으로 구성된 텍스트를 제거하여 모델이 유의미한 학습 및 추론을 할 수 있도록 하였다.
세상에는 다양한 유형의 사람이 존재한다. 그렇기 때문에 모델이 기존에 학습했던 데이터 외에 새로운 특성을 가지고 있는 사용자들이 발생할 확률은 적지 않다. 따라서 본 연구에서는 모델이 학습한 사용자들의 게시글 만을 처리하는 ‘닫힌(closed) 세트’뿐만 아니라, 학습되지 않고 새롭게 입력된 저자들의 게시글도 잘 처리할 수 있는지 확인하기 위해 ‘열린(open) 세트’의 데이터에서도 모델의 성능을 확인하였다. 열린 세트와 닫힌 세트에 대한 실험을 하기 위하여 원본 데이터를 각각 399,972개와 184,671개의 데이터로 사용자 ID가 섞이지 않도록 분리하였다. 열린 세트와 닫힌 세트의 데이터 구성은 Fig. 1에 그림으로 자세히 표현하였다.
열린 세트는 399,972개 데이터가 학습에 모두 사용되며, 닫힌 세트는 ID 라벨에 따라 데이터를 각각 8:2로 분할하여 학습 세트(training set)와 평가 세트(test set)로 분할하였다. 닫힌 세트의 평가 세트는 열린 세트에서도 동일하게 평가 세트로 사용하였다. 저자 식별에 대한 학습 세트로 식별 대상이 아닌 라벨이 학습에 어떠한 영향을 주는지 확인하기 위해 각 10, 25, 50, 100명의 닫힌/열린 세트 내 가장 많은 글을 쓴 작성자의 ID로 구성된 데이터 세트를 구성하였다. 닫힌 세트와 열린 세트 모두, 닫힌 학습 세트 중 10명인 학습 데이터 세트와 동일 작성자가 작성한 글을 평가 세트로 하였다. 추가로 저자 관심 주제에 따른 임베딩 유사성 측정은 열린 세트에 포함된 모든 데이터를 학습에 사용하고, 평가는 닫힌 세트의 학습 데이터 중 상위 25개 “관심주제” 라벨 데이터의 게시글을 각각 200개씩 무작위 추출하여 1,227명이 작성한 5,000개의 글로 이루어진 평가 세트를 구성하였다.
본 연구에서는 각 저자들이 작성한 블로그 글을 이용해 잠재 공간에서 저자들의 특성을 나타내려 한다. 이 과정에서 블로그 글에 녹아있는 주제, 내용, 더 나아가 저자의 개인적 특성까지 모델에 반영될 수 있다. 하나의 글을 이루는 문장들은 서로 무관하지 않고 시간적 순서가 있는 순차적 데이터로 볼 수 있다. 이에 서론에서 언급한 Sentence-BERT를 이용하여 블로그 글을 문장 단위로 나누어 벡터화하였다. 이는 텍스트로 이루어진 문장들을 컴퓨터가 이해할 수 있는 벡터로 처리하는 과정이다. 각 문장들의 순차적 배치에 담겨있는 정보를 학습하기 위해서 Sentence-BERT의 결과로 나온 문장 벡터들을 순환 신경망 모델인 GRU에 입력하여 문장의 모임인 글을 잠재공간에 투영하였다. 글을 잠재공간에 배치하는 과정에서 삼중항 손실(triplet loss)을 이용하여 같은 저자의 글은 가깝게, 다른 저자의 글은 멀어 지도록 배치하였다. 전체적인 모델의 과정은 Fig. 2로 도식화하였다.
글은 하나 이상의 문장으로 이루어져있고, 각 문장들의 구성에 따라 글 속에 정보가 표현된다. 글을 벡터화 하고 글 속에 담겨있는 정보를 학습하기 위하여 거대 언어 모델을 활용한다. Sentence-BERT는 문장간의 의미가 유사한지 판별할 수 있도록 BERT를 추가 학습시킨 모델이다. 문장 사이의 관계를 파악하는 것은 BERT에 비해 더 좋은 성능을 가지지만 BERT의 단점도 그대로 가지고 있다. Sentence-BERT는 BERT와 마찬가지로 모델에 입력할 수 있는 글의 길이에 제한이 따른다. 입력 길이의 제한으로 인해 글 내용이 모두 반영되지 못하는 것을 피하기 위해, 글을 문장 단위로 나누고 각 문장들을 Sentence-BERT로 벡터화하였다. Sentence-BERT를 통과하고 출력된 결과물은 글을 구성하는 문장들의 벡터로 순서적 정보가 있다. 따라서 순서에 대한 정보를 고려하기 위해 순환 신경망 모델에 벡터화된 문장들을 입력한다. 이 과정에서 양방향(Bidirectional) GRU(Bi-GRU)에 잔차 연결(residual connection)을 더하여 사용하였다. 순환 신경망은 입력 길이가 길어질수록 초기 정보를 반영하기 어렵다. 이를 보완하기 위하여 어텐션을 마지막에 활용하여 글의 앞 부분에 있는 중요한 정보도 반영할 수 있도록 하였다.
블로그 게시글 데이터가 모델을 통과하면 잠재공간에 위치하게 된다. 이때 적절한 손실 함수(loss function)를 적용해야 각 글들이 가진 저자의 특성에 맞게 잠재공간에 그룹화하여 위치하게 된다. 해당 모델 구조가 동일한 저자의 글을 잠재공간 상에서 인접하게 위치하게 매개변수를 학습하도록 삼중항 손실(triplet loss)을 사용하였다[14]. 삼중항 손실은 추론 모델을 학습하기 위해 기준이 되는 ‘앵커(anchor)’와 동일한 라벨을 공유하는 ‘양성(positive)’, 라벨이 동일하지 않은 ‘음성(negative)’ 입력값으로 구성한다. 앵커, 양성, 음성 입력값은 동일한 구조 및 매개변수를 공유하는 Bi-GRU 모델을 통하여 잠재공간에 투영된다. Figure 3과 같이 모델은 잠재공간 상에서 동일한 라벨을 가진 텍스트가 인접하도록 파라미터
여기서, 손실 함수는 앵커
삼중항 손실을 이용한 학습에서, 양성, 음성 관계의 항을 적절히 관계 짓는 ‘삼중항 마이닝(triplet mining)’ 방법은 매우 중요한 것으로 알려져 있다. 삼중항 마이닝은 크게 학습과정 밖에서 임의의 기준으로 삼중항을 구성하는 ‘오프라인 마이닝’, 학습 과정 중 학습 매개변수의 변화에 적응하여 유동적으로 삼중항을 구성하는 ‘온라인 마이닝’으로 나눌 수 있다. 이 중 온라인 마이닝을 사용한 방법들이 경험적으로 뛰어난 학습 성능을 보여왔다 보고되었다[9]. 온라인 마이닝에서 주로 채택되는 전략은 앵커, 양성, 음성 데이터의 거리 관계에 의해 정의된다. 배치 전체(batch all) 전략[9]은 학습 가능한 범위 내에서 배치(batch) 속의 모든 음성항
본 연구에서는 모델이 다양한 글이 내포하고 있는 동일한 저자 특성을 잘 학습했는지 확인하고, 유사한 저자 특성을 가지면 잠재공간에서 군집화가 일어나게 하도록 했다. t-distributed Stochastic Neighbor Embedding(t-SNE)으로 잠재공간에 게시글들의 군집화를 시각화했고, 혼동행렬을 이용해 군집화를 수치적으로 나타내었다. Figure 4(a)는 t-SNE를 통해 게시글들이 올라간 잠재공간을 2차원으로 차원을 축소하여 시각화한 그림이다. 가장 많은 글을 작성한 10, 25, 50, 100명의 저자들의 글을 통해 동일 구조의 각각 다른 모델로 학습했다. 저자의 이름으로 라벨링 되어있는 게시글 데이터들을 모델을 이용해 잠재공간에 올려놓았고, 같은 저자일 경우 동일한 색으로 표시된 게시글들의 군집화가 일어난 것을 보았다. 이 결과에 의하면 모델 학습 시 분류 대상보다 더 많은 라벨에 대해 학습하는 것이 분류 대상의 잠재공간에서의 군집화에 어느 정도 도움이 된다는 것을 알 수 있다. 이는 분류 학습 기반의 모델이 분류 대상이 증가할수록 혼동하는 라벨이 많아 지는 것과는 대조적이다. 특히 데이터가 희소한 ID 라벨에 대한 군집화에 분류 대상이 아닌 라벨을 포함한 학습이 도움을 주는 것을 청색, 회색, 보라색 ID 라벨의 군집 분리 경향을 보아 알 수 있다.
Figure 4(b)에 나타나있는 그림은 k-인접 이웃 방법을 이용한 혼동행렬 결과이며, k는 5를 이용했다. 임의로 Target 게시글을 선택하고, 잠재공간에서 유클리디안 거리가 가장 적은 인접한 5개의 게시글의 저자 라벨과 비교했다. 5-인접이웃의 혼동행렬를 통해 고차원 공간 상에서 동일 ID의 글이 인접하여 분포함을 확인할 수 있다. 5-인접이웃 방법은 t-SNE에 비해 국소적 군집화에 대한 평가 및 고차원적 정보를 반영하기에 나은 방법이다. 훈련 저자의 수가 늘어나는 것과 관계 없이 대각 성분에서 높은 값을 보였으며, 이는 잠재공간에서 국소적으로 보았을 때에도 같은 저자의 글들이 잘 모여있다는 것을 알 수 있다.
열린 세트에서의 t-SNE 시각화와 혼동행렬을 통해 학습된 모델이 학습 과정에 포함하지 않은 사용자 ID의 텍스트 또한 군집을 이루는지 확인하였다. Figure 5는 열린 세트를 이용하여 얻은 결과를 t-SNE로 확인한 결과이다. Figure 5(a)는 10명의 저자의 게시글로 훈련하고, 새로운 10명의 저자가 쓴 글을 확인한 그림이다. 닫힌 세트와 비교하면 군집을 이룬 정도가 떨어지지만 몇몇 저자들의 글이 군집화되는 경향이 뚜렷이 보였다. 그러나 오히려 훈련에 사용되는 저자들이 증가할수록 군집화 경향이 약해진다. Figure 5(e)는 열린 세트에서의 5-인접 이웃 방법 결과이다. 닫힌 세트와 비교하면 뚜렷하진 않지만 열린 세트에서의 혼동행렬에서도 대각 성분이 뚜렷하게 관찰되는 것으로 보아 새롭게 입력되는 저자들의 특성도 어느 정도 분류하는 것을 확인하였다.
추천 시스템에 사용하기 위해서는 개별 사용자가 작성한 글 사이의 군집화를 확인해야 함과 동시에 유사한 특성의 사용자 간 임베딩 유사성 또한 확인 되어야 한다. 학습에 사용된 블로그 게시글 말뭉치의 ‘관심 주제(topic)’ 라벨은 사용자에 대해 태깅 된 것으로 사용자 사이의 유사성이 잠재공간 상에 잘 반영되었는지 확인하는데 참조할 수 있다. Figure 6(a)는 k-인접 이웃 혼동행렬을 통해 열린 세트에 대한 관심 주제 라벨 간 인접성을 측정한 것이다. 학습에 사용된 관심 주제 라벨은 Fig. 1의 열린 세트의 학습 데이터 전체이며, 평가 데이터는 닫힌 세트로부터 25개 관심 주제에 대한 각각 200개의 게시글을 무작위 추출하여 5,000개의 표본 게시글을 선별하였다. 관심 주제 별 차이는 있으나, 대각 성분의 값이 이외의 성분보다 높은 경향을 확인할 수 있다. 이를 통해 사용자 단위의 구별을 학습한 모델이 사용자의 특성 단위에 대해서도 표현력이 있음을 알 수 있다. 개별 사용자의 관심사항에 대한 수치적 표현은 본질적으로는 연속적 속성을 가지고 있지만, 사회적 합의에 의해 범주적 분류를 부여한 것일 뿐이다. 모델이 유사한 범주의 텍스트 간에 유사성을 갖도록 임베딩한다면, 관심 주제 분류에 대한 연속적 속성의 반영이 잘 되어있다고 유추할 수 있다. Figure 6(b)는 6(a)의 혼동행렬의 각 행 성분을 관심 주제의 좌표 특성으로 하여 거리 기반의 유사성을 계층적으로 군집 표현한 계통도(dendrogram)이다. 과학(“Science”) 주제와 기술(“Technology”) 주제 사이에는 게시글 단위의 주제 분류 모호성이 있을 것이라고 생각할 수 있으며, 이러한 특징을 두 관심 주제의 계층적 분류 상 강한 연관성을 통해 확인할 수 있다. 모델은 예술(“Arts”), 교육(“Education”), 인적자원(“HumanResources”) 관심 주제 사이에서도 유사성이 있다고 학습하였는데, 교육 관심 주제와 인적자원은 서로 밀접한 관계를 가진다는 점을 반영하였다 생각할 수 있다. 본 연구에서 제시하는 모델 및 방법론에 대한 신뢰를 가정하면, 예술과 교육 관심 주제 사이에는 게시글 단위의 주제 분류 모호성이 있거나 게시자 단위의 관심 주제 모호성이 있다고 생각할 수 있다. 즉, 예술적 활동을 통한 교육이 활발히 논해지고 있거나, 교육에 관심이 많은 사람은 예술에도 관심이 많다는 분석이 가능하다. 부동산(“RealEstate”) 주제의 경우 0.22의 라벨 일치율을 보이나, 전체 200개의 게시글 중 82개, 그리고 64개가 동일한 인물에 의해 작성된 것으로 해당 주제를 다루는 사람 간의 유사성이 크다고 신뢰할 수는 없다. 0.24의 일치율을 보이는 상담(“Accounting”) 또한 전체 200개의 게시글 중 76개의 글이 동일 인물에 의해 작성되어 동일한 현상을 보인다. 사용자 사이의 구별을 통해 관심 주제에 대한 정보도 학습할 수 있음을 확인하였듯이, 모델을 통한 임베딩에 개별 사용자의 성격, 사회적 소속과 같은 사용자 고유의 속성이 반영되어 있다 판단된다.
사용자의 특성을 잘 설명할 수 있는가는 추천 시스템에서 핵심적 요소이다. 보통 사용자에 대한 정보를 수집하는 방법으로 사용되는 설문조사는 개인정보 수집에 대한 우려와 설문 과정의 피로감으로 인해 충분한 사용자 정보를 얻는 데 한계가 있다. 대안으로 비정형 데이터를 가공하여 사용자 정보를 구성하는 방식이 연구되어 왔다. 본 연구에서는 사용자가 충분한 양의 글을 작성하는 환경을 가정하여 텍스트로부터 작성자의 특성을 잠재공간에 투영하고자 하였다. 거대 언어 모델인 Sentence-BERT를 통해 임베딩한 문장 벡터의 순차적 정보를 순환 신경망 GRU 모델의 입력값으로 사용한 후, 삼중항 손실을 통해 GRU 모델을 동일한 작성자의 게시글이 잠재공간에서 인접하게 위치하도록 학습하였다. 저자 식별에 대한 성능 평가를 통해 제안한 모델이 게시글로부터 사용자의 특성을 잠재공간에 잘 투영할 수 있는지 검증하였으며, 동일한 주제를 공유하는 사용자가 작성한 게시글 사이에 인접하게 분포하는가를 확인하여 사용자 간 유사성이 잠재공간 상에서도 유효하게 확인이 되는가 살펴 보았다. 저자 식별에 대한 성능 평가 과정에서 식별 대상 이외의 사용자 ID 라벨을 학습에 활용하는 것이 성능의 향상에 도움을 주는 것으로 확인하였으며, 열린 세트에 대해서도 일부 작성자에 대해 군집화가 닫힌 세트에서와 같이 재현됨을 확인하였다. 분류 대상 외의 더 많은 라벨에 대해 학습하는 것이 분류하고자 하는 일부 라벨 사이의 군집화에 도움을 주는 것은 삼중항 손실 기법을 포함한 메트릭 학습 기법이 분류학습에 활용될 가능성을 확인했다. 기존의 저자 식별 문제는 적은 수의 저자에 대해 초점을 맞추어 왔으나, 본 연구에서는 열린 세트로 학습한 모델을 통해 학습에 포함되지 않은 저자의 게시물 또한 군집화를 통한 식별이 가능하도록 시도하였다. 실제로 식별하고자 하는 대상이 모델의 학습에 충분한 글을 작성하리라는 보장이 없기 때문에 이러한 가정이 실제 사용 환경에서 더욱 유용하게 활용될 수 있을 것이다. 더 많은 사용자 ID 라벨을 활용할수록 작성자의 구별 기준을 더 많이 학습할 수 있을 것이라는 최초의 가설과는 다르게 열린 세트에 대한 성능 평가에서 10개의 ID 라벨을 사용하여 학습한 모델이 25–100개 라벨을 통해 학습한 모델보다 우수한 군집화 성능을 보이는 것을 확인하였다.
본 연구는 2022년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원(No.RS-2022-00155885, 인공지능융합혁신인재양성(한양대학교 ERICA))과 한국연구재단의 연구비 지원 NRF-2021R1C1C1007918(M.J.L.)와 No.NRF-2020R1A2C2010875(S.-W.S.)에 의해 이루어졌습니다.