數字解析專欄:言情小說越寫越長了嗎?

我在 WRN 的第一篇專欄,來研究一件近期很好奇的事情。

 

這個故事得要從很久很久以前(?)開始說起:

我(可能也有 WRN 的同學跟我一樣)是個買書之後就常常把書放進書櫃擺到天荒地老都沒拿出來閱讀的人。最近要搬家想要清掉一批書,要清書勢必得先看書,於是只得卯起來讀,好巧不巧我選到的是梁心的書,讀到後來內心充斥著這樣的崩潰聲音:媽啊為什麼排版這麼密集、字這麼多、怎麼讀都讀不完~

一上電子書網站看才發現,我選到的那幾本梁心的書,字數皆是九萬起跳,內容幾乎等於其他書的 1.5 倍這麼多,難怪時間也是 1.5 倍啊!(吶喊)

同樣的,莫顏在移到文創風前的最後幾本作品,字數也是令人有感地多,可能大家都能很直觀地回答標題的問題:是的,言情小說越寫越長了。

不過江湖在走不能只靠感覺,讓我們用科學的角度來看看言情小說是不是真的越寫越長了吧!

 

進行研究前,我們得先找到適合的研究資料,經過我縝密地隨便地查看,電子書網站都會寫字數,所以從電子書的資料進行爬蟲是條不錯的選擇。

再來因為要研究的是時間變化,所以要考慮出版日期的準確度,可惜的是禾馬出版社上架電子書的出版日期填的比較不確實(2000 年的書跟你說是 2021 年出版的你敢信?),所以我最後只有選狗屋出版社的資料來用,撈個兩千筆應該也算夠了。

至於為什麼沒撈其他家(像是新月)的資料?因為我就懶啊

 

所以,在這邊稍微定義一下資料集:

「狗屋出版社的書,且有在電子書網站上架者」

總共有 2,547 筆資料。

 

寫了一個簡單的程式,然後放著他跑一陣子,撈齊資料就可以動工啦~~

至於好不容易撈到百分之八十的時候卻被電子書網站發現我在幫他們測試伺服器強度而被踢出來就是另外一件事了QQ 下次我會乖乖設撈完一定數量要休息一陣子的

 

**內沒有程式,但有資料前處理解釋**

 

動工的第一步是清除不必要的資料以及檢查資料正確性。

  1. 電子書會有好幾本一起賣的系列套書,這個要移掉
  2. 狗屋出版社不知道為什麼有幾本封面長得很奇怪的原創,這個也要移掉
  3. 手動修正明顯出版日期錯誤
  4. 連清有四本花蝶系列的書有明顯日期錯誤(出版年份寫 2024 難不成是未來書來著!),但連在狗屋官網都找不到正確日期,因此忍痛刪除QQ

 

整理過後留下了 2,517 筆資料。

 

接著來看看狗屋出版的書中,字數前十名的書分別是哪些,又分別是哪個作者在哪一年寫成的?

留個幾行空白,各位同學不妨猜猜看。

 

 

答案如下:

書名 作者 字數 出版日期
相思絕 ※ 四方宇 108,628 2014/08/20
相思之外 ※ 四方宇 101,052 2015/07/20
福妻不從夫  莫顏 100,784 2017/06/06
盜王 余宛宛 99,195 2013/05/21
臨江仙 ※ 四方宇 98,588 2015/01/15
清風煙雨之盼君歸 梅貝兒 98,519 2017/03/07
調戲烈紅妝 梁心 98,242 2014/07/01
江湖謠言之捉拿美人欽犯 莫顏 97,920 2016/10/04
好傢伙壞傢伙的愛情 單飛雪 97,805 2010/08/05
戲冤家 莫顏 97,519 2018/02/06

 

 

 

 

 

 

 

 

 

 

 

※四方宇之書雖然實體書非由狗屋出版,但電子書似乎是委託狗屋製作?

 

第一名是端午必備粽串王四方宇XD

令人有點意外但又不太意外的是莫顏在橘子說最後幾本的字數竟然比文創風目前的五本還多!

 

因為懶的關係我只有打前十名(天曉得我拉這個表格拉得好辛苦啊),不過我還是稍微把前二十名看了一下,做出以下整理:

  1. 前 10 名的作家有四方宇、莫顏、余宛宛、梅貝兒、梁心、單飛雪,第 11-20 名(甚至是到 25 名)則依然是四方宇、莫顏、梅貝兒、梁心這幾個人在輪,無其他作家擠上來(直到第 26 名才冒出沈韋)
  2. 前 20 名中莫顏佔了 7 名、四方宇佔了 4 名、梅貝兒與梁心各佔 3 名、余宛宛跟單飛雪各佔 1 名。
  3. 前 20 名中的出書日期集中在 2013、2014 年之後,只有一本例外,那就是單飛雪在 2010 年完成的《好傢伙壞傢伙的愛情》。

 

這時候同學們可能會發問,說不定集中在 2014 年之後是因為 2014 年之後的書比較多上架成電子書?

那麼我們看看電子書的各年度分佈圖表吧~

看得出來 2000 年有上架的書甚至高於 2016 年啊!(狗、狗屋的靈壓……

 

之後來進行本篇的研究大計:究竟言情小說的字數有沒有越來越長的趨勢?(至少針對狗屋出版社而言)

 

答案揭曉:

 

 

很明顯的

2009 年是六萬,到 2019 年直接飆升到九萬啦~~~

不過,其實 2019 年的樣本數只有兩本,還都是莫顏的書  

至於 1999 年跟 2000 年為什麼會稍微翹起來,因為上架的書少比較容易受極端值影響,並且有上四方宇的書(←所謂極端值)XDD

 

再來,我們繼續做兩個比較,第一個是「不同作者的平均字數比較」,第二個是「同作者是否寫作年資越高字數越多」。

 

針對第一題,我們先篩選條件為有超過 20 筆出書資料的作家(統計數字比較高比較具有代表性)。

 

結果如下:

 

梁心果然是第一啊!!!!!!

不過沈韋高居第二比四方宇多我倒是滿驚訝的,還有棠霜的書平均只有 45,000 不到是怎麼回事!

 

考量到作家可能會隨著時間更迭而改變寫作策略,因此我們納入第二個考量:「同作者是否寫作年資越高字數越多?」

 

我們將作家出書時間以 2010 前和 2010 後拆成兩期,重新跑一次結果。

(一樣,還是只列出該時期出書量大於 20 本者)

 

 

莫顏:在 2010 年前的平均字數是 57,324 → 2010 年後上漲到 72,397,漲!有!夠!多!

雷恩那:在 2010 年前的平均字數是 63,004 → 2010 年後上漲到 72,185(現在到了新月應該只會更多

其他作家也稍微有一點不同

伍薇:56,388→67,057

子澄:52,650→57,539

季葒:53,983→62,318

梅貝兒:66,005→75,645

宋雨桐:55,221→58,715

米琪:56,087→57,855(沒什麼變)

朱映徽:52,062→53,218(沒什麼變)

夏喬恩:63,531→64,820(沒什麼變)

煓梓:74,575→70,525(唯一一個變少的)

 

不過這個研究還是稍微有一點缺陷跟失真的地方:這是上下集分開來看的情況,而那子、莫顏在 2010 年左右都出了滿多上下冊的,所以實際上的故事內容是變成上下冊+字更多,感覺讀者好賺啊 >/////<

 

 

至此,我們可以做一點簡單的總結,不過因為我沒有要寫論文所以是個隨便的總結XDDD

  1. 言情小說在 2010 年後有越寫越長的趨勢(至少以狗屋出版社來看是這樣的),這點可能跟讀者閱讀風氣改變有關,或多或少受到原創書系的影響也說不定
  2. 大抵而言,同一個作家寫作的字數也有增加的趨勢,不過有少數例外
  3. 梁心的書字數有夠多,各位同學如要閱讀,請預留多一點的時間

 

這篇差不多介紹到這邊,希望大家喜歡這樣充滿統計的專欄,有什麼想法都歡迎一起來討論分享~

部落格分類: 
自訂標籤: 

回應

我也覺得和出版社過於保守的政策有關。

印象中,曾經看過兩個出版社限制字數的理由:

1. 讀者不愛字數多的小說:

(1). 凌淑芬《偷心契約》(1997年,初版):凌淑芬在前言或後記中提到,寫到一半時,發現已經爆字數,只好將剩下的情節,挪用至【中東系列】其他相關小說中。

(2). 綠痕《還君一缽淚》(1999年,初版),字數少的很誇張。但到了《還君一缽淚》(2008年,修訂版),字數變多了。有讀者詢問綠痕,她有解釋是當時的編輯大刪特刪,所以2008年的修訂版,才是她這本小說的原本面貌。

(3). 雷恩娜、凌玉(典心)都因為這個理由,被出版社要求刪減內容。

2. 讀者不愛同一對戀人重複擔任主角:這個意思是,同對戀人只能擔任一次男女主角,不能擔任兩次以上。

(1). 黑潔明《蚩尤》(2002年,初版),好像也是在後記中,黑大有提及因為《炎女》的故事其實尚未寫完,因此便寫了《蚩尤》,但因擔心出版社會反對,故黑潔明便詢問編輯,最後是出版社放行,答應出版。

(2). 珍娜‧泰勒曾有幾套作品(一套3本)都是相同男女主角,我看完後,真的會覺得男女主角的信任基礎好薄弱,一直無限糾纏,看了好煩。(可以證明出版社的擔心是真的)

(3). 齊萱《暗影三俠》(1998年)也是套書(上中下,共3本),雖然同樣是同一對男女主角,但男女主角的感情戲集中在上冊,在中冊及下冊中,都有另外寫其他戀人,所以感覺就不會很膩。

哇,太有趣了!謝謝mugicha花時間做這麼好玩的整理。

好久沒上站,一上來就看到專欄有新文章,讚讚~

我看到mugicha的專欄想到我譯過的一本書,作者跟mugicha一樣拿數字來解析文字,我譯的時候也覺得超有趣!(他主要也是用Phyton,加上一點Natural Language Toolkit)

例如他也研究了這個「字數膨脹」的問題,他是拿爆紅暢銷小說來統計系列作「首作vs續作」的長度,例如哈利波特、格雷、暮光之城...等等。結果發現這些系列作真的都越寫越厚(哈利波特除了第六集的字數往下掉,整體是呈現字數暴漲)。他在書裡有解釋他推測為什麼會這樣。當然也有系列小說沒有字數膨脹(例如飢餓遊戲),但那有一些特別的原因。

另外例如,他用統計的方式來揪出某些書真正的作者是誰,現在有人用AI做這件事,但其實在一九七〇年代,已經有統計學家弄出一套公式來查證爭議文獻的作者,這本書就是用那套老公式來算小說的真實作者,算得很準!看了覺得滿神的XD 諸如此類,感覺文學跟數學其實可以很有交集這樣~

mugicha的文章也讓我想到一個我對羅曼史的疑問:羅曼史有沒有「少子化」的趨勢啊?我隱約覺得近幾年的外曼不論歷史現代,好像主角的孩子越生越少耶,不知道能不能用統計證明我的狐疑~~~XDDDD

 

L'insulaire

這篇文章是我在WRN看過最認真的分析文了!(跪著看完)

言情小說的市場變遷認真討論的話,大概會變成一本論文。(不,我不會挖坑給自己跳的,不用期待 XDDD)

簡略說一下我覺得實體書市場萎縮的重要因素--網路的興起。
網路開始盛行後,漸漸出現大量的盜書掃書網站,直接影響實體書的銷量。
網路小說平台崛起,作者們可以不受限制地發表文章、題材自由多變(寫得好不好是另一回事),讀者們不用苦等出版社出書就有免費(或相對上很便宜)的小說看。年輕讀者們的閱讀型態逐漸改變。
加上3C產品日新月異、提供多元化的娛樂,閱讀人口不斷減少。

眾多因素相加之下,言小市場就變成現在這樣了

 

My grading standards
5: must-have             4: recommend      3: kill time
2: save your money    1: did not finish

以前台言篇幅真的不長,我本身喜歡字多,主要是喜歡細節豐富的故事,所以特別喜歡外曼,但也不是字多就好,外曼結構紮實、主題多變,篇幅較長但內容充實,如果只拉長篇幅但內容空洞的話安堆!

曾經在網路上看到原創的釣魚文(?)就去搜文章來看,結果長到我要吐血,重點是常常到後面超展開,但頭洗下去硬是看完(有時候太長直接看最後幾章,但發現劇情對不起來XDDD)。

說來說去還是要推坑麥茶大大魔影魅靈系列啊啊啊,怎麼可以跳過(用力搖肩),我之前也是想說很虐又還沒完結先放著,結果某天試了其中一本之後就把全部買回來塞爆書櫃惹…沒有想像中的虐真的,該甜的還是很甜(壓住你的手指下單

沒錯,很多死忠的讀者就是黏在這塊輕薄短小的言小市場,出版社會這麼看重這些黏著度高的"死忠讀者"身上,以為繼續出輕薄短小的書就可以活下去吧。

死忠讀者其實不太會跑掉,想辦法開發新客源或找回老讀者或許才是該思考的方向。

等到原創小說都快要沒落了才打開字數限制,我都不知要說啥了;-)

我也是輕鬆看言小的,要把戀愛感情當主軸寫成魔戒我也看不下去啦,但至少品質必須要有,海量輕薄的電子讀物,只看網路盜版的一堆,重點是要看肯花錢的TARGET會灑在哪裡。

現在都線上租書買書了,言小出版社或許因為中國盜版的關係排斥電子書上線也是可悲,到最近才看到大部分的出版社都上線。

 

十篇專欄嗎,好喔,等妳喔。

CC 跟 Brina 說的這個大概值得再寫十篇專欄討論XD

 

數值分析結果背後的成因實在太複雜了,這邊我只有簡單用「或多或少受到原創書系的影響也說不定」帶過,實際的脈絡實在爬梳不完。

去年看到一篇大約 2008 年左右的文,在討論原創、內曼(臺言)的路線差異,就有不少網友表示自己不喜歡太長的篇幅,希望言小一直都走簡短的路線,以該文來對比現在的發展,或許真的只能用不勝唏噓來表示,所以說不定是早期部分讀者對長篇文字很反彈,而出版社只注意到這邊的聲音,跟不及讀者習慣的改變。

我自己有在想原因,因為現在有一部分的租書店讀者客群都是家庭主婦,說不定他們的閱讀時間比較長,原創比較合他們胃口,像是花比較多時間刻劃角色性格啊之類的;至於盜文的部分、中國原創連載生態這些,再討論下去就又快要可以發專欄了XD

不過我倒是偏好內容比較精簡的言小XD 其他類的大部頭小說我也看得不少,唯獨言小是越長越懶得翻,大概是因為我把言小定位成放鬆時的讀物,長了反而放鬆不了XD (欸)

所以我到現在還翻不開魔影魅靈啊啊啊

 

從單阿姐在 2010 年就寫了將近十萬字的小說可以看出,出版社或許給予較知名的作家比較大的空間,不過梁心是認真的很會爆字數XD

好像是《負合適戀人》的後記吧?梁心寫了類似這樣的文字:「按照慣例我沒有太多的空間可以留給後記」還滿好笑的XDD

「那都是很好很好的,可是我偏不喜歡。」

                                              ——金庸《白馬嘯西風》

超認真的分析文 :D

我覺得是台灣出版社看到中國落落長原創小說的銷售量大增後,才開始逐步放鬆在言小字數上的限制,讓銷量不錯的作家們可以寫得長一點,上下冊的作品才變多了一些。

不過3C產品讓閱讀人口流失、租書店倒店潮,出版社慢一步的反應已經無力回天了。

 

My grading standards
5: must-have             4: recommend      3: kill time
2: save your money    1: did not finish

修但幾哩!!

我~看~了~什~麼~

哈哈哈~妳好妙呀!~

我感覺看到第二個液泡同學耶!

結論:雖然我看不懂內容(是我個人腦結構的問題~妳寫得很好)~但是支持妳多寫一點~讓WRN充滿多元化的專欄~

feed me books, that's all i need. 

這和出版社的政策有關吧。

以前言小百花爭鳴的時候,出版社的策略就是出海量內容輕薄的書,滿足租書店裡各種太太小姐打發下班下課時間的需求。之前看過論文探討7-80年代台灣翻譯小說"小本的"氾濫,就是應付當時台灣經濟起飛時期許多工廠女工的感情幻想。

我是喜歡看長文的,大部頭魔戒之類的才是我心頭好,十幾年前看外曼習慣了,會覺得內曼的內容太過簡單,當時也很質疑為什麼當中國都在狂出所謂的"原創"長文,而讀者接受度這麼高的時候,台灣的出版社卻還是死守著他們行規,不讓作家超過字數太多。

好囉,那麼輕薄短小的內曼,正是被盜版上網的好素材,海量又字數不多正好方便網路盜版越盜越猖獗。出版社拿不出對應辦法,終於在快倒光之後讓作者可以寫長一點,讓書本的內容豐富些。結果來不及啦,加上3C興起,讀者跑得差不多了。

不得不說出版社應對讀者市場變化是不是毫無應變能力?當盜版猖獗、中國長篇原創火紅的時侯,還堅持旗下作家字數不能超過,那不就是做死而已,還真的也倒到差不多了就是。

梁心我覺得是不錯的作家,但很可惜她出書的時間已經是在市場劇變之後,無力挽回讀者。當出版社像現在這樣要倒不倒的狀態,也沒辦法維持作家生活,當然大部分作家都轉換跑道去了。