캐글 코드 (8) 썸네일형 리스트형 lstm을 통한 개채명 인식 #)1라이브러리 임포트 import pandas as pd import numpy as np import matplotlib.pyplot as plt import urllib.request from tensorflow.keras.preprocessing.text import Tokenizer from tensorflow.keras.preprocessing.sequence import pad_sequences from sklearn.model_selection import train_test_split from tensorflow.keras.utils import to_categorical #)2 데이터 받기 data = pd.read_csv("/content/drive/MyDrive/kdt/refer t.. 캐글코리아 Spooky NLP and Topic Modelling tutorial 라이브러리 임포트 import base64 import numpy as np import pandas as pd # Plotly imports import plotly.offline as py py.init_notebook_mode(connected=True) import plotly.graph_objs as go import plotly.tools as tls # Other imports from collections import Counter from scipy.misc import imread from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer from sklearn.decomposition import NMF, .. 캐글 우주 타이타닉 예측 1탄 출처:Spaceship Titanic with CatBoost (~81%) https://www.kaggle.com/code/packchanwoo/spaceship-titanic-with-catboost-81/edit 데이터 받기 train = pd.read_csv('/kaggle/input/spaceship-titanic/train.csv') test = pd.read_csv('/kaggle/input/spaceship-titanic/test.csv') cabin이라는 컬럼을 deck num side로 구분해주는 코드임 train[['Deck','Num', 'Side']] = train['Cabin'].str.split('/', expand = True) 캐글 자전거 수요예측 아래코드는 학습데이터와 테스트 데이터를 받는 코드이다. 그래서 학습데이터 5개만 출력한 결과이다. train=pd.read_csv(r'../input/train.csv') test=pd.read_csv(r'../input/test.csv') df=train.copy() test_df=test.copy() df.head() df.columns.unique() 데이터의 타입은 int8개 object는 1개 float64는 3개 입니다. df.info() 위코드는 결측치를 출력한 코드입니다. df.isnull().sum() 그래서 결측치를 시각화하면 다음과 같습니다. msno.matrix(df) 데이터를 전부 확인 해보았다. 이제 본격적으로시각화를 해보겠다. 계절 season이라는 변수는 계절을 알리는 편수이.. 캐글 SMS Spam Collection Dataset 2탄 데이터 받기 df = pd.read_csv("/kaggle/input/sms-spam-collection-dataset/spam.csv", encoding="latin-1") df = df.dropna(how="any", axis=1) df.columns = ['target', 'message'] df.head() 메시지 길어 컬럼 만들기 df['message_len'] = df['message'].apply(lambda x: len(x.split(' '))) df.head() agg를 통한 통계 기법 balance_counts = df.groupby('target')['target'].agg('count').values balance_counts 스팸빈도 시각화 fig = go.Figure() fig... 캐글 SMS Spam Collection Dataset 1탄 라이브러리 임포트 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns %matplotlib inline sns.set_style("whitegrid") plt.style.use("fivethirtyeight") 데이터 가져오기 simple_train = ['call you tonight', 'Call me a cab', 'Please call me... PLEASE!'] TF-IDF 적용 from sklearn.feature_extraction.text import CountVectorizer vect = CountVectorizer() # tf-idf 적용하기 vect.fit(simple_.. 캐글 News Detection 1탄 데이터 받기 val_data = pd.read_csv('/kaggle/input/emotion-dataset/validation.csv') train_data = pd.read_csv('/kaggle/input/emotion-dataset/training.csv') test_data = pd.read_csv('/kaggle/input/emotion-dataset/test.csv') print("Validation data :",val_data.shape) print("Train data :",train_data.shape) print("Test data :",test_data.shape) half_test_data = test_data.iloc[1000:] test_data = test_data.iloc.. 캐글 NLP 뉴스데이터 분석 1탄 데이터 받아오기 # 여기서 lines=true는 라인별로 데이터를 받겠다는 의미임 df = pd.read_json('/kaggle/input/news-category-dataset/News_Category_Dataset_v3.json', lines=True) df.head() 고윳값 출력하기 #카테고리를 라는 컬럼에 고윳갑 가져오기 categories = df.category.unique() categories 한컬럼의 고윳값 일부 변경 #지정한 카테고리 외에는 전부 other로 표현 selected_categories = ['POLITICS', 'WELLNESS', 'ENTERTAINMENT', 'TRAVEL', 'STYLE & BEAUTY', 'QUEER VOICES', 'FOOD & DRINK', .. 이전 1 다음