当前位置: 首页 > news >正文

IMDB影评情感分析项目

imdb数据集下载地址: http://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz

import os
import torch
from torch import nn
import dltools
def read_imdb(data_dir, is_train):data, labels = [], []for label in ('pos', 'neg'):folder_name = os.path.join(data_dir, 'train' if is_train else 'test', label)for file in os.listdir(folder_name):   #os.listdir()相当于形成文件夹列表,可以遍历路径下的每一个文件with open(os.path.join(folder_name, file), 'rb') as f:#文本没有分行,就一次性读取review = f.read().decode('utf-8').replace('\n', '')data.append(review)labels.append(1 if label == 'pos' else 0)  #三目运算符return data, labels
data_dir = r'E:\ALOT\10_deep_learning\data\aclImdb'
train_data = read_imdb(data_dir, is_train=True)
print('训练集数目:', len(train_data[0]))
训练集数目: 25000

#列表和元祖没有shape

for x, y in zip(train_data[0][:3], train_data[1][:3]):print('标签:', y, 'review:', x[:60])
标签: 1 review: Bromwell High is a cartoon comedy. It ran at the same time a
标签: 1 review: Homelessness (or Houselessness as George Carlin stated) has 
标签: 1 review: Brilliant over-acting by Lesley Ann Warren. Best dramatic ho
#分词
train_tokens = dltools.tokenize(train_data[0], token='word')
train_tokens  #是一个二维列表,  一个文本文件一个(内置)列表
#构建词汇表vocab
vocab = dltools.Vocab(train_tokens, min_freq=5, reserved_tokens=['<pad>'])
len(vocab)
49347
#绘制直方图查看每条评论的字数分布
dltools.set_figsize()
dltools.plt.xlabel('# tokens per review')
dltools.plt.ylabel('count')
dltools.plt.hist([len(line) for line in train_tokens], bins=range(0,1000, 50))  #分成50份  

http://www.mrgr.cn/news/37923.html

相关文章:

  • 无环SLAM系统集成后端回环检测模块(loop):SC-A-LOAM以及FAST_LIO_SLAM
  • 数据集成常见的方法包括哪些?
  • Python的包管理工具pip安装
  • 解决方案:如何区分python里面绝对路径跟相对路径的不同
  • 《Linux从小白到高手》理论篇(二):Linux的目录结构和磁盘管理
  • CS50
  • 正则表达式中的贪婪模式和非贪婪模式
  • 基于Hive和Hadoop的共享单车分析系统
  • 各领域/行业硬件一览表
  • pyside6与协程
  • 对抗攻击方法详解:梯度攻击、转移攻击与模型集成攻击
  • 你的下一台手机会是眼镜吗?RTE 大会与你一同寻找下一代计算平台丨「空间计算和新硬件」论坛报名
  • c++学习笔记(47)
  • 国内AI大模型,这篇文章说透了
  • 探探Java与python中的闭包
  • 【编程小白必看】MySQL 日期类型转换与判断操作秘籍一文全掌握
  • 基于STM32的智能灌溉系统
  • 数论——数数(找质因数个数),三位出题人(组合数学,快速幂)
  • 掌握AI提示词的艺术:应用、防护与成为提示词专家的策略
  • Qt5 常见宏定义 记录