当前位置: 首页 > news >正文

[Python]使用python统计docx文档字符、单词数

一、简介

本文介绍了如何使用python中的docx包统计.docx文档中的字符数、字数。

二、方法

1. 统计单个文档中的字符数

#!/usr/bin/env python3
import docxcharacter_cnt = 0
document_file_path = "./input.docx"doc = docx.Document(document_file_path)  # 打开 word 文档
for para in doc.paragraphs:  # 遍历 word 文档的所有段落character_cnt += len(para.text)  # para.text 为某段落的所有字符,len 即为段落字符数量print("总字符数为:", character_cnt)

2.统计单个文档中的单词数

#!/usr/bin/env python3
import docxword_cnt = 0
document_file_path = "./input.docx"doc = docx.Document(document_file_path)  # 打开 word 文档for para in doc.paragraphs: # 遍历 word 文档的所有段落words = para.text.split()  # 根据空格分割单词word_cnt += len(words)print("总单词数为:", word_cnt)

3.统计当前目录下所有文档中的字符数、字数

#!/usr/bin/env python3import os
import docxpath = './'  # word文档文件夹路径
word_list = os.listdir(path)  # 获取文件夹下的文件列表for i in word_list:if i.endswith(".docx"):character_cnt = 0word_cnt = 0doc = docx.Document(path + '{}'.format(i))  # 打开每一个 word 文档for para in doc.paragraphs:  # 遍历某一个 word 文档的所有段落character_cnt+= len(para.text)  # para.text 为某段落的所有字符,len 即为段落字符数量for para in doc.paragraphs:words = para.text.split()  # 根据空格分割单词word_cnt += len(words)print("文档:", i)print("总字符数为:", character_cnt)print("总单词数为:", word_cnt)

三、参考

[1].Python实现word文档的字数统计


http://www.mrgr.cn/news/23196.html

相关文章:

  • 反序列化漏洞练习1
  • 20章 线性表、栈、队列和优先队列
  • 前端面试热点题目——typescript篇
  • 苍穹外卖()
  • 【数据结构与算法 | 灵神题单 | 删除链表篇】力扣2487, 237
  • LeetCode之字典树
  • 输入子系统
  • Qt常用控件——QRadioButton和QCheckBox
  • 数据结构—单链表的基本操作
  • C++之数据类型
  • 【人工智能】详细介绍如何在本地部署一个类似于GPT的大语言模型
  • 华为 HCIP-Datacom H12-821 题库 (6)
  • 【代码随想录训练营第42期 Day55打卡 - 图论Part5 - 并查集的应用
  • 证件照背景替换软件有哪些?证照之星怎么换背景色
  • CTK框架(七):事件监听
  • day45
  • SAP与泛微OA系统集成案例(制药行业)
  • 使用transform对html的video播放器窗口放大
  • 多路转接之poll(接口介绍,struct pollfd介绍,实现原理,实现非阻塞网络通信代码)
  • 八、3 DMA数据转运(代码)