- 한국어 혐오 표현 감지
- 한국어 연예(entertainment) 뉴스 댓글에서의 혐오 표현 식별
- 연예인의 비극적인 사건 등 온라인 익명성으로 인한 부정적인 영향
- 한국 온라인 연예 뉴스 기사 9천 4백여개의 댓글 한국어 코퍼스
- 각 댓글 라벨링: 사회적 편견(social bias)의 존재 / 증오 표현 (hate speech)
- 예측 모델 개발 (hate, offensive, or none) (혐오, 공격적인 발언, 없음)
- Macro F1-Score (정보 검색에 일반적으로 사용)
- F1-Metric: 재현율과 정밀도를 동등하게 가중치 적용
- 975개 항목과 헤더 포함된 .csv 파일 제출
- 헤더 포함: 0 - none, 1 - offensive, 2 - hate 형식 (라벨링)
- 한국어 연예(entertainment) 뉴스 댓글에서의 혐오 표현 식별
: 각 댓글에 혐오표현 라벨링 完test.hate.no_label.csv
의 모델 훈련 및 라벨링 예측- 원본 데이터:
{train, dev, test}.news_title.txt
: the training set (훈련 데이터셋)dev.hate.csv
: the validation set (검증 데이터셋)test.hate.no_label.csv
: the test set (w/o label) (테스트 데이터 셋 (라벨링 없음) → 목표!train.news_title.txt
: article titles of comments in the training set (훈련데이터셋의 댓글 기사 제목)dev.news_title.txt
: article titles of comments in the validation set (검증데이터셋의 댓글 기사 제목)test.news_title.txt
: article titles of comments in the test set (테스트데이터셋의 댓글 기사 제목)unlabeled_comments.txt
: comments without the label (라벨링 없는 댓글)unlabeled_comments.news_title.txt
: article titles of comments without the label (라벨링 없는 댓글 기사 제목)
) : news commentslabel
) : hate labelnone
@misc{korean-hate-speech-detection, author = {KoreanHateSpeech}, title = {Korean Hate Speech Detection}, publisher = {Kaggle}, year = {2020}, url = {} }
알고리즘 | 비전 | 이미지 복원 | 이미지 색상화 | SSIM
- 이미지의 색상화와 손실 부분을 복원하는 AI 알고리즘 개발
- 손실된 이미지의 결손 부분을 복구하고, 흑백 이미지에 자연스러운 색을 입히는 AI 알고리즘 개발
- train_input [폴더] : 흑백, 일부 손상된 PNG 학습 이미지 (input, 29603장)-
- train_gt [폴더] : 원본 PNG 이미지 (target, 29603장)
- train.csv [파일] : 학습을 위한 Pair한 PNG 이미지들의 경로
- test_input [폴더] : 흑백, 일부 손상된 PNG 평가 이미지 (input, 100장)
- test.csv [파일] : 추론을 위한 Input PNG 이미지들의 경로
- 추론한 PNG 이미지들은 zip 형식으로 압축된 제출 양식
- zip 파일 내부에 폴더 없이 이미지로만 구성
- 추론 결과 PNG 파일명 = 평가 입력 이미지 파일명 (PAIR)
- 재난 트윗(Disaster Tweets)과 자연어 처리 (Natural Language Processing)
- 진짜 재난 트윗인지 아닌지 예측하기
- 트위터는 비상 시 중요한 커뮤니케이션 플랫폼
- ex. 시각적 사진 + “ABLAZE (불타는)” 단어 표현
- 어떤 트윗이 실제 재난에 대한 것인지, 아닌지 예측하는 머신러닝 구축 목표
- 수동으로 분류된 10,000개의 트윗 데이트 세트
- predicted & expected answer의 F1 score로 평가
- test 셋에 있는 각각의 ID에 대해 1 (재난 o), 0 (재난 x)
- 헤더 포함 (id, target)
- The
of a tweet - A
from that tweet (although this may be blank!) (빈칸 포함) - The
the tweet was sent from (may also be blank) (빈칸 포함)
- 진짜 재난인지 아닌지 주어진 트윗 구분 예측
- 1 - predict (재난 o), 2 - not (재난 x)
- train.csv - the training set (훈련 데이터 셋)
- test.csv - the test set (테스트 데이터 셋)
- sample_submission.csv - a sample submission file in the correct format (올바른 형식의 제출 파일 예시)
- a unique identifier for each tweettext
- the text of the tweetlocation
- the location the tweet was sent from (may be blank)keyword
- a particular keyword from the tweet (may be blank)target
- in train.csv only, this denotes whether a tweet is about a real disaster (1
) or not (0
@misc{nlp-getting-started, author = {Addison Howard, devrishi, Phil Culliton, Yufeng Guo}, title = {Natural Language Processing with Disaster Tweets}, publisher = {Kaggle}, year = {2019}, url = {} }