전체 글 (34) 썸네일형 리스트형 인공지능 수첩 ( 크롤링 / newspaper3k패키지 / 크롤러 / 토큰화 / 불용어 / 나이브 베이즈 분류기 / nltk 패키지 / 워드 클라우드 ) 크롤링 (crawling) - 웹 페이지로부터 데이터를 추출하는 행위 - BeautifulSoup 크롤링 패키지를 사용하면 HTML이나 XML 문서로부터 원하는 정보를 추출할 수 있음. from bs4 import BeautifulSoup soup = BeautifulSoup( html, 'html.parser' ) # HTML 문법으로 파싱하여 BeautifulSoup인스턴스 생성 soup.select('body') # 인스턴스명.select('찾는 태그명')를 통해서 정보를 가져옴. * soup.select('상위태그명 > 하위태그명') # 바로 아래의 하위태그인 경우 ' > 기호 ' 사용 * soup.select('상위태그명 하위태그명') # 바로 아래의 하위태그가 아닌 경우 '띄어쓰기' 사용 .. 인공지능 수첩 ( 자연어 처리 / 희소 표현 / 분산 표현 / Embedding 레이어 / RNN / LSTM / GRU / 양방향 RNN / 언어 모델 ) 자연어 처리 1. 라는 특수한 토큰(문제지)을 맨 앞에 추가해 줌으로써 순환신경망은 시작 단어를 생성함. 2. 생성한 단어를 다시 입력으로 사용함. 3. 순차적으로 생성하다가 문장을 완성했다는 사인으로 라는 특수한 토큰(답안지)을 추가함. sentence = "나는 밥을 먹었다" source_sentence = "" + sentence # 소스 문장: 모델의 입력이 되는 문장 target_sentence = sentence + "" # 타겟 문장: 정답 역할을 하는 모델의 출력 문장 희소 표현 (Sparse Representation) - 원핫 인코딩을 통해 단어가 포함되는 자리에는 1을 넣고, 나머지에는 0을 넣음. - N개의 단어를 각각 N차원의 벡터로 표현하며, 벡터의 특정 차원에 단어 혹은 의미.. 인공지능 수첩 (콜백 / 샘플 / 점진적 학습 / 옵티마이저 / 규제 / 드롭아웃 / 성능 평가 / 분류 기준 / PR 커브 / ROC 커브 / 오차 척도) 콜백 (callback) - 모델을 훈련하는 도중에 어떤 작업을 수행할 수 있도록 도와주는 도구 / fit 메서드의 callbacks 매개변수에 리스트로 전달하여 사용함. - ModelCheckpoint콜백: 기본적으로 에포크마다 모델을 저장함. / save_best_only = True를 매개변수로 지정하여 가장 낮은 검증점수를 만드는 모델을 만들 수 있음. - EarlyStopping 콜백: 'patience=횟수' 매개변수를 통해 횟수만큼 연속으로 검증 점수가 향상되지 않으면 훈련을 중지함. / restore_best_weight =True를 매개변수로 지정하여 가장 낮은 검증 손실을 낸 모델 파라미터로 돌릴 수 있음. * 조기종료: 오버피팅이 일어나기 전에 미리 훈련을 중지하는 것 chec.. 이전 1 ··· 4 5 6 7 8 9 10 ··· 12 다음