国产成人精品在线-国产成人精品综合-国产成人精品综合久久久-国产成人精品综合在线-天天做日日爱夜夜爽-天天做日日干

集團官微
您的位置:首頁 > 新聞中心 > 文化產業智庫 > 正文

保繼剛:應用大數據進行國內旅游統計的思考及操作

發布時間: 2024-07-09 17:15:44
來源: 中國旅游協會
字號: [小] [大] 【分享正文】
9

一、將尺度觀引入旅游統計思考

對于研究者來講,得到好的數據我們能得出正確的結論,如果研究者得到錯誤的數據我們會得到精確的錯誤結論,因為我們的模型是精確的。很感謝這些年我的團隊和學術界的研究中有一些很精確的數據,這里特別表揚一下黃山,黃山每年公布的數據沒有水份并且都是買票的數據,不累加別的數據,實事求是有多少就是多少,所以要為他們點贊。

只要是賣門票的地方給的數據都是準確的,因為門票的收入做不了假。城市旅游數據比較麻煩,國家公布的數據和每個省公布的數據的累加一直是不可比的,有人會說我們國家公布的數據是通過抽樣調查的出行數據,各個省的數據是各個省的接待數據,但是問題是沒有人說明他們兩個為什么不可比,或者說我們很少會知道數據是怎么來的。

2019年文旅部公布的國內游客是60億人次,31個省市自治區加起來是170億人次,特別是2022年,因為疫情三年本是一個最好的擠水份的機會, 可2022年文旅部公布的數據是25.30億人次,全國加起來是97億人次,倍數還增加了,全國加起來的數據是國家公布的3.8倍。

我用幾個極端的例子給大家展示一下這些數據,廣東省、貴州省、云南省。原來云南的數字還少一些,這兩年已經遠遠超過貴州和很多地方。廣東省2018年是4.53億人次,2019年是4.94億人次,2021年是2.54億人次,2022年2.01億。貴州2018年9.67億人次、2019年11.34億人次,2019年是全國第一,旅游收入是1.1萬億;2021年6.44億人次,2022年降到4.92億人次。云南省2021年開始超過貴州,達6.49億人次,2022年超過了更多,高達8.41億人次。貴州和云南都超過廣東很多。

這幾組的數據矛盾特別大,廣東1.2億常住人口,經濟全國第一,消費全國第一,酒店量全國第一,機場吞吐量廣州機場是全國三大機場之一,深圳機場全國五大機場之一。廣東省國內游客量比云貴這兩個省的數字小很多,與我們的常識不符。廣州機場吞吐量在2019年是7300多萬人次,深圳大約5300萬人次,昆明4800萬人次,貴陽約2200萬人次。

2019年國內旅游數據廣州公布是5800萬人次,昆明1.8億人次,貴陽2.2億人次。一個城市超過2億人次游客是一個天文數字,這是一個違反常識的問題。

為什么會出現這樣的問題?按照國家公布的統計方法,肯定不會出現這么大的數字,但是在實際操作的時候不是這樣統計的,比如說一個省的數據可以是以縣為單位的,一個縣報給地級市,地級市報給省,進行累加。

還有以縣或者地級市為單位的數據又是怎么得到的,有的可能是按照景區(景點)的數據,所以你們去分析全國各個大城市的旅游數據,收門票景點越多的城市數據量就會越好,如果說這個城市有20個收門票的地方,每個游客平均去了8-10個,一個游客就會被算了10次。晚上住酒店再算一次,旅行社接待算一次,一個游客就會被計算超過10次,我所研究過的以旅游為主的目的地,大概10倍是起步,10多年前大概是5-6倍,現在大概是10倍以上。沒有極限的增長,一直不敢把增長速度放下來,我們的增長速度大概每年是8%-10%,一般不會低于8%。到最后本來是5、6倍的,就整成七八倍十幾倍都有了,這就是過去的數字。

前兩年又有一個省說我們是用大數據,使用大數據以后,如果是完全的沒有處理過的原始數據,比如說現在三大運營商的手機用戶是17億多,就可能會有一個人用兩個號,有路過的,有異地手機本地使用的,有汽車自動收費卡的等,都可以被計算在內。在沒有對這些數據清洗情況下,大數據也會夸大實際情況。同時,大數據統計的是人天數不是人次數,因為大數據每天都會被統計到,每天統計累加起來就是人天數,一個人住了三天的信號被捕捉到就成了三個人次,這就是我們現在可能出現的問題。

中國的旅游經濟在全世界相比也是高的超出旅游經濟常識,西部某省一萬多億的旅游收入,省委書記省內開會問一萬多億的旅游收入,這么多錢哪兒去了。相關部門回答,藏富于民。如果說某省一萬多億旅游收入按照3900萬人口,人均旅游經濟收入是2.4萬元,從旅游目的地視角來看這個數字非常高。但是事實不是這樣的,因為這一萬多億是按游客平均消費計算出來的。首先是進行游客抽樣,多數是對異地游、跨省游的游客抽樣。比如抽樣的游客人均消費是1000元,但是假如游客被統計了10次,就是10000元,實際只消費了1000元。

這就是為何現在旅游收入數據也特別高,跟我們的常識又不符,才一萬多億的GDP有一萬多億的旅游收入,盡管這兩個一個是增加值,一個是總收入不可比,但是我們可以類比一下這樣的占比,實際上是不可能的。

今天的旅游統計跟現實之間的矛盾已經越來越大,按照原國家旅游局的界定,現在執行的統計定義,10公里6小時離開家就算做游客,實際上特別難操作。北京這樣的大城市,上班超過10公里太多了,離家上班就超過6小時,城市旅游的天文數字,這是其中一部分原因。

世界旅游組織也好,我們國家的定義也好,在現實中難以操作。這涉及多地理尺度的轉換,到底我們是用地理距離來算10公里,還是用行政邊界來算。西方國家也有用80公里,4小時的,但都難于操作。所以我提出如果用行政邊界來計算,與稅收單元相匹配,有可能解決這個問題。如果把流動的廣義消費作為一種旅游消費的話,再想辦法剔除那些非旅游消費的部分。我們的稅收行政范圍是以縣為單元,只要進入到這個行政區劃范圍,消費就進入了這里的稅收體系里,如果在兩個稅收單元的邊界,不需要10公里就已經跨界,跨界的消費稅收已計算到另外一個行政區域。從這個意義上講,再用10公里這個空間標準不合適了。

從理論上推導一下,為什么各個省的累加會超過全國,各個地級市的累加會超過一個省,各個縣級市的累加是更大的數據。國家對旅游人次的定義是指離開居住地出去旅行后回居住地算一個人次,也就是說一個北京人從北京到廣州可能經過了河北、河南、武漢、湖南進入廣東,如果在每個地方都停留了一下,每個省都會把你算做一次游客,但是對于國家統計來講只算一次,從居住地離開轉一圈回到居住地算一人次,這樣的話地理尺度就特別重要了。

我們以省級為單位做一個理論推算,如果假設全中國所有人每年到其它30個省市都去一次,全中國會有多少個旅游人次呢,390億。2016年全國334個地級單位,最極端的情況每個人把其他333個跑一遍,理論值會達到4329億的旅游者。這樣一個推導就說明行政尺度越小的統計單位,累加起來的數據就會越大。現在公布的數據,并不公布某個省游客里的外省游客有多少(外省游客不能是地級市的游客量相加),本省游客多少(本省游客還應該公布跨地級市的多少等)。我們用一個概念含混不清的大到違法常識的數據把真實情況掩蓋了。

從理論推算來講,尺度越小的統計,累加數據會越大。這幾年我們團隊一直從實踐的角度來嘗試游客統計的實際操作性的問題。我們先不討論國際上和國內的定義要怎么修改,那是一個非常復雜的事情。我們以省、市、縣為三級統計地理單元,比如說廣東省可以首先公布每年廣東省外的其它30個省市自治區的國內游客有多少,如北京有多少,上海有多少,天津有多少。廣東省內21個地級市,比如廣州市可以再公布一個數,另外20個地級市有多少游客到了廣州,如果重點旅游縣特別有必要,還可以再看看地級市內其它縣市區到有多少游客,可以分層次來進行公布,這樣的話這些數據就可比。首先比外省,能吸引外省的人有多少,省內再比地級市。這是今天講的第一個方面部分,按地理尺度有可能從操作性上解決現在的游客統計“橫向不可比,縱向不可加”問題。

二、大數據游客量統計及消費統計實驗

第二個方面,我們現在特別關注消費,5月17日習總書記在全國旅游工作會議上的重要指示講旅游已經成為新時期的戰略性支柱產業。投資、出口、消費推動經濟發展的三駕馬車,消費越來越重要,其中旅游消費在消費中又特別重要。因此,非常有必要弄清楚旅游消費是什么樣的。

過去是靠抽樣,抽樣大家知道會有很多問題。目前全國游客抽樣一年8萬份,四個季度每個季度2萬份,城市1萬份,農村1萬份。全國城市選了30個市,30個市里省會城市都沒有完全覆蓋,只覆蓋了4個直轄市,5個副省級市像廈門、深圳、蘇州、寧波、大連,和21個省會城市,抽樣的城市都是經濟比較發達的城市,是中國經濟最好的地方,這樣推論出來的數據可能會偏高。農村是1萬份,總量上太小,這就是傳統抽樣可能會出現的問題。

現在有機會使用大數據,中國去實體貨幣化的速度遠遠快于整個世界,已經快到讓外國人到中國適應不了我們的支付方式。我們農村老太太賣菜都是微信支付,只要我們是微信支付、支付寶支付,用的是公司注冊的收費程序,除了用微信(支付寶)零錢不通過銀聯系統統計不了外,銀聯數據里都會包含所有的消費,這樣就有可能整合信令數據和銀聯數據來研究旅游經濟。

我們現在的三大運營商有17.1億用戶,移動占57.6%,中國電信23%,聯通將近19%,有一些地方可能會用其中一個運營商的數據來做研究和分析,這還是大樣本抽樣,如果只用聯通,全國的用戶不到19%,其結果是19%的抽樣結果而不是全部用戶的結果。

雙卡雙待、兩部手機、異地手機本地使用、高速公路(鐵路)路過、日常活動跨越邊界居民等都會夸大游客量,需要通過編寫專門的算法進行清洗。

信令數據可以計算游客量,可以知道游客的軌跡,銀聯數據可以分析游客的消費,結合起來可以給游客年齡、性別、來源、游覽行為、消費狀況等進行畫像。消費層次的分析,可以分析出什么地方的游客消費高,什么地方的游客消費低,還可以把在旅游六要素的消費分開,什么地方消費、人均消費、消費喜好、消費趨勢這些可以做出來。

我們組合了一個多學科的團隊,對廣西做了一個大數據支撐廣西旅游數字營銷識別和決策的項目,依據的就是信令數據、銀聯的消費數據和OTA的評論數據。

我們看看實際結果,2019-2023年廣西客源地的空間分布,廣東一般來說占廣西外省游客的40%多,常年基本上最主力的客源是廣東,然后是貴州、湖南、云南、河南、四川、浙江、江蘇以及其它地市省份。

廣東游客在廣西的空間分布,南寧是第一,玉林第二,然后是貴港、梧州、桂林、賀州、青州,大家可能會看到南寧、玉林、貴港、梧州超過桂林,南寧是省會城市很容易理解,玉林曬在廣東打工的人多,貴港和梧州是靠近廣東。

再有一個有意思的數據是廣東游客在廣西14個地級市里的消費,桂林排到第一,玉林排到第三,玉林很多是返鄉打工人員,這樣一看就知道桂林超過了南寧、玉林、梧州,所以廣東游客在廣西14個地級市的消費,桂林是非常重要的。

我們再分成六要素吃住行游娛購,在桂林住、行還有購物是占了大頭,吃占的不多,在貴港吃占的比較多,梧州吃占的比較多,梧州跟廣東交界,很多廣東人會跑到梧州吃飯。

用OTA的數據來看桂林、陽朔整體的評價,對哪些地方感興趣,哪些地方不感興趣,還有在桂林內部是怎么旅游的,從這個點到那個點是什么樣的流量和流向關系,這個是用OTA數據得出的游客評價、產品偏好和流動軌跡。引入大數據之后,有很多問題理論上首先要理清,然后技術上做出來。

三、引入大數據技術后旅游人數統計存在的問題及原因

第一個問題還是縱向不可加,橫向不可比的問題始終存在。大數據統計方面的旅游統計工作目前還是屬于補充手段,因為國家還沒有出臺相應的文件和規范,特別是如何對大數據進行清洗。

我們看一個之前做的實驗,這是2019年國慶期間做的一個實驗,如果不篩選、不清洗這些重復的游客,廣西得到的總人數是3586.63萬人/天,把這些重復的清洗掉之后,清洗了1029萬人/天,重復的、過路的等等占到了40%。不清洗的人天數和官方公布的人天數是比較相近的,沒有清洗是3500萬,官方公布是3300萬,但是我們那個是人天,官方公布的是人次。

清洗里面占比最多的是地理尺度的變化,以外省游客為例,按照14個地級市計算累加以及只要進入廣西才計算,相差了307萬,占總清洗量的54%;漫游常住用戶,占了30%(169萬),過路客占了65萬占11.6%,雙卡雙待智能終端占3.1%(17萬),這些誤差是非常大的。

玉林超過了桂林是因為,玉林是廣西在廣東打工最多的地級市,每年節假日大量的玉林人會返鄉探親,這部分的計算結果是,玉林從自治區之外回去的35萬多,桂林是9萬多,南寧是4萬多,所以這樣一算扣除返鄉的玉林的游客人數就比不上桂林,當時我們得到初始數據覺得很奇怪,玉林已經超過桂林了,把這個數據一分析,就知道桂林實際上真正的游客要多,但是作為官方公布數據來講,返鄉的也算游客,只不過回到家沒有多少消費,這些是我們實驗的結果。

現在需要討論的東西很多,比如說慣常環境怎么定義,10公里6小時是否繼續使用,城市越擴越大的情況下,跨區縣的流動并不全是旅游活動,區縣一級的慣常環境怎么識別,游客在不同地理尺度下如何界定,省級、地級市、縣級市是不是跨省也要6小時還是什么,原來的定義是不是要更改,下一步需要好好研討,最后才能得出規范。

如果從大數據的角度,只要這些定義說的很清楚,技術是可以做到的。我們團隊在做進一步的工作,比如說電子圍欄的實驗,比如說技術規范,我們自己在摸索,所有這些問題都有可能解決,但是一定是文旅部、國家統計局這個層面上來協調,下面我們來做技術是有可能做到的。