当前位置: 首页 > news >正文

#保持每天更新第一天(1)_文本预处理小技巧_中英文翻译分割技巧_从中文右边空格分割,用rsplit(‘ ‘, 1)

-- coding: utf-8 --

“”"
Created on Fri Oct 18 20:58:07 2024

@author: M.D
“”"

import pandas as pd

df = pd.read_csv(“transversalSkillsCollection_翻译.csv”)
data = df[“altLabels 替代标签”]

原始数据,每条数据由英文和中文组成

data = “”"
take the initiative 积极主动
give impetus 推动
be a driving force 成为驱动力
demonstrate sense of initiative 展示主动性
initiate action 发起行动
show sense of initiative 展现主动性
show active initiative 展现积极的主动性
implement environmental choices in your own eating habit 将环保选择融入自己的饮食习惯
adopt a sustainable eating habit 采用可持续的饮食习惯
promoting organic and biological food consumption 促进有机和生物食品的消费
“”"

分割文本为每一行

df get()

lines = data.strip().split(‘\n’)

提取英文和中文,按倒数第一个空格分割

english = []
chinese = []
for line in lines:
eng, chn = line.rsplit(’ ', 1) # 使用rsplit从右侧第一个空格进行分割
english.append(eng)
chinese.append(chn)

创建DataFrame

df = pd.DataFrame({‘English’: english, ‘Chinese’: chinese})

保存为CSV文件

df.to_csv(‘soft_skills_separated_all.csv’, index=False, encoding=‘utf-8-sig’)

print(“CSV file saved successfully.”)


http://www.mrgr.cn/news/53389.html

相关文章:

  • YOLO系列入门:1、YOLO V11环境搭建
  • 锅炉水处理历年真题附答案(二)
  • GIT batch的支持中文的方法和系统建议
  • Windows自带录屏工具操作教程和四款录屏神器推荐!
  • 2024.10.18 软考学习笔记
  • HashMap优点总结及源码分析
  • 90%的建筑工程都在用的项目管理系统大盘点
  • 2021-04-14 proteus中仿真时74HC245三态双向端口扩展输出
  • 10.18学习
  • 渗透测试导论
  • 爬虫——scrapy的基本使用
  • 物联网智能家居环境监测系统
  • 【解决办法】git clone报错unable to access ‘xxx‘: SSL certificate problem
  • 临时文件类
  • 人形机器人的关节控制
  • PAXOS协议:分布式系统中的一致性守护者
  • Python实现控制图分析
  • transformers 推理 Qwen2.5 等大模型技术细节详解(一)transformers 初始化和对象加载(文末免费送书)
  • Json-Rpc框架(项目设计 —— 客户端模块功能详细介绍)
  • 操作系统学习笔记-1.1操作系统的基本概念