AI Secretary, what happened on my favorite show today? 오늘 놓친 드라마 줄거리, 인공지능 비서가 대신 알려준다!

[Submission Form - English Ver.]

To participate in League 1, answer Q.1 - Q.4
To participate in League 2, answer Q.1 & Q.2 is optional

1. Explain what purpose you want to use your NLP model.

I sometimes missed one episode of a drama I watched every week because there was an urgent thing or I forgot to watch the drama. In that situation, I watched the episode when it reruns, but there were times when I didn’t have time to watch the whole episode. So I searched a video clip on YouTube, or understood the content through blogs and articles.
YouTube clip videos are only shortly uploaded about the highlights, so when I’m curious about other videos or contents, I had to search and search again. Blogs and articles were also duplicated, so it was difficult to check other important contents, ending.

So, I thought it would be convenient if there was an NLP model that simply summarizes the plot by recognizing duplicate contents, highlights, and endings by gathering clip videos, blogs, and articles for busy people.

2. How did you collect and prepare your dataset?

  • It is important to verify the license of the dataset before you use them.

I couldn’t prepare the data, but the rough idea for configuring the dataset is as follows.

  • Clip videos that come out if I search on YouTube for the episode of the drama.
  • (1) Blog posts, (2) Articles uploaded in real time by searching the episode of the drama on various portal sites (Google, Naver, etc.)

[제출 양식 - Korean Ver.]

한국어로 제출하고 싶은 분들을 위한 제출 양식입니다.
League 1에 참가하시는 분은 Q.1 - Q.4 모두 작성해주세요.
League 2에 참가하시는 분은 Q.1 - Q.2 는 선택사항입니다.

1. 만든 "나만의 NLP 모델"의 사용 목적을 설명해주세요.

매주 챙겨보는 드라마를 가끔 급한 일이 생기거나 깜빡해서 한 회차를 놓치는 경우가 있었습니다. 재방송으로 다시 볼 때도 있었지만, 해당 회차를 다 볼 시간이 안되어서 유튜브 클립 영상으로 대충 보거나, 블로그와 기사글을 통해 내용을 파악할 때도 있었습니다.
유튜브 클립 영상은 하이라이트 부분만 짧게 업로드 되어서 다른 영상들이나 내용이 궁금하면 다시 검색하고 찾아봐야 한다는 번거로움이 있었고, 블로그와 기사 글도 중복되는 내용이 대부분이라 다른 중요한 내용이나 결말 확인, 줄거리 파악의 어려움이 있었습니다.

그래서 바쁜 현대인들을 위해 클립 영상과 블로그, 기사를 한꺼번에 모아서 중복된 내용, 하이라이트, 결말 등을 인식하여 줄거리를 간단히 summarizing해주는 NLP 모델이 생기면 좋을 것 같다는 생각을 했습니다.

2. 데이터셋을 구성하고 준비한 방법을 들려주세요. 해당 데이터셋을 사용하기 전에 반드시 라이센스 확인을 해주세요.

데이터 준비는 못했지만, 데이터셋 구성을 위한 아이디어는 대략 아래와 같습니다.

  • 유튜브에서 원하는 드라마의 해당 회차를 키워드로 검색해서 나오는 클립 영상들
  • 각종 포털 사이트(구글, 네이버 등)에서 원하는 드라마의 해당 회차를 키워드로 검색해서 나오는 1) 블로그 글, (2) 실시간으로 업로드 되는 기사
8 Likes

주변에 유튜브 클립으로 드라마 하이라이트만 보시는 분들이 꽤 있더라구요! 말씀하신 데이터 셋들로 충분히 가능할 것 같습니다~! :slight_smile:

저와 함께 아이디어에 대해 고민을 나눴던 Yunjin님!
일상에서 필요하다고 느꼈던 부분을 아이디어에 잘 녹여내신 것 같아요.

챌린지 후에도 데이터셋 구성과 준비하는 과정을 저희와 함께 해보실까요? :blush: