NLP-2조 더닝크루거
구다연, 김동현, 김유민, 김희범, 이민아, 이지인
관계 추출은 지식 그래프 구축을 위한 핵심 구성 요소로, 구조화된 검색, 감정 분석, 질문 답변하기, 요약과 같은 자연어처리 응용 프로그램에서 중요합니다. 비구조적인 자연어 문장에서 구조적인 triple(SVO)을 추출해 정보를 요약하고, 중요한 성분을 핵심적으로 파악할 수 있습니다.
프로젝트 기간 : 2024.01.03 - 2024.01.18
예시
sentence | 오라클(구 썬 마이크로시스템즈)에서 제공하는 자바 가상 머신 말고도 각 운영 체제 개발사가 제공하는 자바 가상 머신 및 오픈소스로 개발된 구형 버전의 온전한 자바 VM도 있으며, GNU의 GCJ나 아파치 소프트웨어 재단(ASF: Apache Software Foundation)의 하모니(Harmony)와 같은 아직은 완전하지 않지만 지속적인 오픈 소스 자바 가상 머신도 존재한다. |
---|---|
subject_entity | 썬 마이크로시스템즈 |
object_entity | 오라클 |
relation | 단체:별칭 (org:alternate_names) |
데이터셋
데이터 | 사용 데이터셋 | 목적 | 구성 |
---|---|---|---|
학습 데이터 | train.csv, 32470개 | 학습 데이터 셋을 활용한 학습 모델 생성 | 샘플 순서(id), 문장(sentence), 주체(subject_entity), 객체(object_entity), 30개의 class로 구성(label), 샘플 출처(source) |
평가 데이터 | test_data.csv, 7765개 | 학습된 모델에 기반한 문장 내 개체 간 관계 (Class) 예측 | 샘플 순서(id), 문장(sentence), 주체(subject_entity), 객체(object_entity), 100 label로 blind 처리(label), 샘플 출처(source) |
평가 방법
사용 stack : Git
Notion
GPU V100
Python
Pytorch
Wandb
public: 10위, private : 11위