通过Python分析日语单词中音调类型的比例

enjoy了哦 · 发表于 2019-3-23 21:42:30

本帖最后由 enjoy了哦于 2019-3-23 23:23 编辑

通过调查日语单词中音调类型的比例，可以得出一些结论，方便记忆单词本身和其后续助词的音调。

原始数据：新明解国语辞典第5版（EPWING格式）
首先通过 EBDump 打开该EPWING格式词典的文件夹的 HONMON 文件，导出其中的“前方一致表記形見出し”部分，选择全部的1412个block。

导出后，将该文件转码成 UTF-8 格式，并使用正则表达式替换部分内容，使其容易被后续分析处理。

为统计尾高型音调，需要知道每个单词的拍数。由于拗音占有两个字符，但只算一拍，为了方便统计，将其中的小的[ゃ][ゅ][ょ] 及对应的片假名（还有小的[ア][イ][ウ][エ][オ]等，外来词专用音节）去掉，即[きゃ][きゅ][きょ]中后面那个字符。这样一来，拍数就等于字符数了。

最终的经过清洗的“干净”的数据如下所示，根据个人的习惯进行处理：

然后可以通过 Python 进行统计，一个单词可能有多个音调，但只统计第一个音调（稍微改动源码可以统计所有的音调）。这个代码可以用来明白大致的统计思路，后续还有写零碎的更改，并没有体现在这里面。

#!/usr/bin/env python
% b( }) b& |3 i0 \
#_*_ coding:utf-8 _*_9 k6 {. V; P& D3 @
* A1 S# [( C2 {5 n# N* V3 W9 a% z8 n
import sys,os
! @2 b4 P0 G- ]. K) \
import numpy as np4 s, [# @! T) U% A1 j6 Y
3 c# l* @0 N m* r& B& `( W) u
# 带有音调标记的词汇数目
- Z( K* H7 i+ R: r4 F
all_entry = 0
& \, t' f/ _* \) i2 b2 Y# D* G4 n
& L! V) [) B* A) P* h& F
# 平板型,[0]
' x+ i& g; A3 X4 K
entry_0 = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]9 \8 K9 J8 f- b7 t$ t' N2 c+ g
3 T- r) B( _) w
# 头高型,[1]
0 {. K2 b* b9 y3 W% {1 ^
entry_1 = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]+ _5 {7 y5 s; F2 a6 e8 E H
; y/ ]1 T, W5 w# C0 n! F' d
# 尾高型,[x] = 拍数' Z- o: u5 G; L# M
entry_last_high = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]7 Z: k( w D, I" h! E
$ D+ V0 m+ D- H# d
# 中高型,[x] < 拍数
# T: Z6 @) e; V: c3 p( a" ]
entry_middle = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]8 T8 W3 l1 y; S' {& I( P' D
" ~9 J @4 _1 X0 K' ~; U$ k
file_name = sys.argv[1]& `% {& ~' P4 R- s
f = open(file_name,'rb')
. l2 D1 f" p& d. C
for line in f:
" B# u2 p9 ^4 W5 a
line = line.replace(b"\r\n",b""): l+ y/ B( O& u
line = line.decode()
* z# H" J, E ^" h4 Z2 w
db = line.split(',')# F+ W- z) F* d) Z6 q6 p4 o% E
word_len = len(db[0])7 ]7 a+ w4 d! e/ z
if word_len < 16:
! `) b" X# L# [0 X9 C/ V; x
all_entry = all_entry + 1" N6 q# F$ y3 x. g$ J2 W
for i in range(1,len(db)):$ L+ x8 f- v) \* [& a: ~, A
accent = db[i]
+ l3 Q( _) ^, O8 G/ N8 v
if accent.startswith('['):" _/ ~2 M" y) v+ c
integer = int(accent[1])
3 C5 |3 n/ e5 {
if integer == 0:8 s& e. O6 s1 j0 q
entry_0[word_len] = entry_0[word_len] + 1
% ~8 t% M$ e2 [( |
elif integer == 1:1 g; d, l9 b$ n2 Y! }/ i/ q
entry_1[word_len] = entry_1[word_len] + 1! N# R3 M# F$ p& |# V! W% U
elif integer == word_len:
- b( t1 A/ A2 d/ I9 ~, l- R! m" z$ H
entry_last_high[word_len] = entry_last_high[word_len] + 1
6 `) ?( n! z) h/ \( {
else:. C1 a! `* J. W* d
entry_middle[word_len] = entry_middle[word_len] + 1
% N+ S) n, u" v! M2 {$ z
break. O9 l% l8 {# s1 x- v
5 n$ t0 k1 l8 ^, \* b7 A ]& U
print('[0]:')
# f" Y2 n, w9 S F6 r. S2 Z9 {7 m
for i in range(1,len(entry_0)):4 @0 M+ a/ C) Q5 S+ \% |
print('%d' % (entry_0[i]))* o! _ `4 u0 L- ]6 l' v& X! p
print('entries: %d' % np.sum(entry_0))
; ?; m' i" V# i4 _) E' C9 Q
print('\n')
i! {7 {: V4 ]7 \4 }' n: |
& N$ U% n, C, V' Z3 a
print('[1]:')
1 w! P. a5 a) S4 u6 n
for i in range(1,len(entry_1)):, ~8 l5 |5 |% r, T8 l9 ^. a
print('%d' % (entry_1[i]))
. \ X8 g2 }( M# M1 Z8 m6 j
print('entries: %d' % np.sum(entry_1))
& C* g; b: x3 j: U, J$ S- G
print('\n'), g, `! N7 D( `2 B
! i% Q4 \- [' q6 |. o. }
print('middle high:')# u) t. i/ \: u/ }
for i in range(1,len(entry_middle)):; }* V9 R7 [7 J( F% e4 r. U' ?
print('%d' % (entry_middle[i]))( ]: B6 d/ U/ z2 b" ?5 t
print('entries: %d' % np.sum(entry_middle))
$ G( _1 `3 Q+ s
print('\n')
- ^* t# R- j2 A1 T/ R
print('last high:')
8 |* M; \/ q4 p. [1 W* R( h
for i in range(1,len(entry_last_high)):) d, |9 _' M& R9 c5 f$ F
print('%d' % (entry_last_high[i]))5 w$ A, W1 f9 h7 y+ }
print('entries: %d' % np.sum(entry_last_high))
7 w4 w# G3 i( x
print('\n')( c7 l. L! I9 i7 N$ X1 O
9 ~8 A) s& O7 p) P& P2 Q+ X: Q
print('all entries:')
5 c- G# w5 G& ?4 {! C2 y/ s; g
print(all_entry)* c! Y0 |! @4 D! t" b5 W
6 l/ ?7 ?, K4 D# P" s0 q- }
f.close()

复制代码

最后将 Python 输出结果进行数据可视化：

以及饼图：

可以得出几个结论：
1. 尾高型的单词很少（约2%，大部分在2拍和3拍的单词上，2拍和3拍五五开，总共约1300个单词（在7万多个单词中）。
2. 头高型的单词次少（约17%），主要集中在3拍的单词上（约51%），2拍和4拍都约占20%左右。
3. 日语中4拍的单词最多（约42%），并且相当一部分（约72%）是平板型。这和新标日中入门单元里，“声调和语调”部分中“声调”小节里的解说是一样的。
4. 记忆平板型和尾高型的单词时，单词本身发音规律相同，都是前低后高，但后接的助词音调不同，不好记忆。但通过上述统计，可以这么做：（两拍以上）尾高型的单词单独记忆后续助词的音调，其后续助词的音调总是低的，而在一般情况下，一个单词（两拍以上）后接的助词的音调（高或低）和该单词的最后一拍是相同的。一拍的单词完全不符合这个“一般情况”，只需要记住这一拍本身是低还是高，再根据“一个单词中第一拍和第二拍音调必定不同”来确定助词音调。单词本身的音调则通过多听、多用以形成固定的记忆。

enjoy了哦 · 发表于 2019-3-24 07:52:11

kriskr 发表于 2019-3-24 00:48
0 j- U ?# R+ i! r" q想问下楼主ebdump导出后如何转码为utf8 为什么我转码后，是乱码，求赐教，是需要一些python改动吗 ...

文本编辑我一般用 notepad++，开源又好用。其中的 Encoding 菜单中有个Convert to UTF-8，可以转码。

在正则表达式替换的过程中，做了如下处理：
1. 删除了多个单词组成的条目。这种条目分别对每一个组成单词都标注了音调。
2. 声调类型统计只统计0-9,10及以上不统计。
3. 拍数在16拍及以上的不统计。
以及一些细微的调整。

因为各人处理的方法不同，你最终得出的统计结果可能和我不太一样。

kapan000 · 发表于 2019-3-23 22:43:16

本帖最后由 kapan000 于 2019-3-23 22:46 编辑

请教几个问题
1、新明解单词数较少，可否统计下超级大辞林？
2、统计饼图，可否给出所占比例和数量。这样更好看点。
3、可否给出统计的xls？我想再算下，10拍以内，各拍那个声调多一点及其比例

没想到0声单词这么多
我一直认为2,3,4...这类最多

enjoy了哦 · 发表于 2019-3-23 23:12:18

kapan000 发表于 2019-3-23 22:43
. z% \. V* D% C- o请教几个问题
, W2 M" U: z& u$ [2 v1 r1、新明解单词数较少，可否统计下超级大辞林？, d1 }% C0 B) t0 n5 A, V5 |
2、统计饼图，可否给出所占比例和数量。这样更 ...

我觉得统计超级大辞林没有必要。原因有以下几点：
1. 新明解已经收录了常用单词，这个统计是用来指导记忆声调的，对常用7万单词的统计我觉得真的已经足够了。
2. 要对超级大辞林进行数据清洗是非常麻烦的。其中的百科词条等，也不太常用。
3. 超级大辞林中的大量片假名词语（外来词等），其声调相比常用和语、汉语词汇，没有那么固定。如果将其纳入统计，我觉得并不具有代表性。
4. 对于超级大辞林中古语的声调，我觉得统计了也没有什么代表性，我学现代日语就已经够呛了。

学日语真心推荐新明解，你可能觉得它收词量小，但是它还告诉你词汇的用法，一些有用的信息等。

这个EPWING版的新明解好像是通过别的格式转来的，里面有很多东西没转对，问题有点大，最好不要用。

kapan000 · 发表于 2019-3-23 23:43:22

本帖最后由 kapan000 于 2019-3-24 00:01 编辑

enjoy了哦发表于 2019-3-23 23:12
1 z. O$ h! Y* G( P3 z3 ^我觉得统计超级大辞林没有必要。原因有以下几点：
0 c, b# ?5 k# r7 u6 W+ H; w8 H1. 新明解已经收录了常用单词，这个统计是用来指导记忆 ...

非常感谢。请问下，这个统计是全部单词？是否包含了片假名单词？

如果可以的话，能否再统计以下3个纬度
这样就更细化，明白了
纯片假名
有汉字的
纯平假名的，即完全无汉字的

谢谢

kriskr · 发表于 2019-3-24 00:48:53

想问下楼主ebdump导出后如何转码为utf8 为什么我转码后，是乱码，求赐教，是需要一些python改动吗

f2st · 发表于 2019-3-24 10:05:05

想问下楼主ebdump导出后如何转码为utf8 为什么我转码后，是乱码，求赐教，是需要一些python改动吗

f2st · 发表于 2019-3-24 10:12:58

求导出的txt

takeko · 发表于 2019-3-24 21:36:15

太厉害了

		自动登录	找回密码
密码			免费注册

[语言讨论] 通过Python分析日语单词中音调类型的比例

本帖子中包含更多资源

评分

本帖被以下淘专辑推荐: