شبیهسازی توزیع تراکم جمعیت با کلان داده های تلفن همراه
Teerayut Horanont1, Thananut Phiboonbanakit1 and Santi Phithakkitnukoon2,3
1موسسه بینالمللی فناوری Sirinhorn (SIIT)، دانشگاه Thammasat، Pathum Thani، تایلند
2گروه مهندسی کامپیوتر، دانشکده مهندسی، دانشگاه چیانگ مای، تایلند
3مرکز عالی فناوری زیرساختایی و مهندسی حمل و نقل (ExCITE)، دانشکده مهندسی، دانشگاه چیانگ مای، تایلند
نویسندگان مسئول: Teerayut Horanont (teerayut@siit.tu.ac.th)، Santi Phithakkitnukoon (santi@eng.cmu.ac.th)
از آنجایی که داده های تلفن همراه (داده CDR) توجه روزافزونی را در تحقیقات، از جمله در علوم اجتماعی، حمل و نقل، اطلاعات شهری و داده های بزرگ به دست آورده اند، این مطالعه به دنبال بررسی شبیهسازی دادههای CDR از لحاظ شباهت واقعی توزیع جمعیت تراکم از سه دیدگاه سهم اپراتور از بازار، نسبت جمعیت کاربران شهری-روستایی و نسبت جنسیت کاربر است. نتایج نشان میدهند که نمایانگر بودن داده ها در مقایسه با سهم اپراتور از بازار در مقیاس یکسانی نیست، نسبت 80 به 20 جمعیت کاربران شهری و روستایی میتواند به خوبی توزیع تراکم جمعیت را نشان دهد و یک ترکیب مساوی از جمعیت کاربر مرد و زن به خوبی میتواند نشان دهنده توزیع تراکم جمعیت باشد. این مطالعه، اولین تحقیق در مورد نمایانگری دادههای CDR است. یافتهها اطلاعات مفیدی را ارائه می دهند که میتوانند در هنگام برخورد با دادههای CDR، یک راهنمایی بصری ارائه دهند.
کلید واژه ها: تجزیه و تحلیل دادههای تلفن همراه؛ سوابق جزئیات تماس، نمایش دادهها
1.مقدمه
امروزه تلفن همراه دیگر تنها یک دستگاه ارتباطی نیست. تلفن همراه در طول چند سال گذشته به واسطه پیشرفتهای فنآوری های سنجش و ویژگی های مفید برای استفاده از دستگاههای همراه به طور قابل ملاحظه ای پیشرفت داشته است که آن را تبدیل به بخش مهمی از زندگی روزمره ما میکند. با استفاده از نرخ نفوذ بالا، در حال حاضر تقریبا همه تلفن همراه دارند. هنگام اتصال به شبکه تلفن همراه برای استفاده از خدمات صوتی، پیام کوتاه (SMS) و یا خدمات داده، گزارشات ارتباطات توسط ارائهدهندگان خدمات مخابراتی برای اهداف ارائه صورت حساب، در فرم سابقه جزئیات تماس (CDR) جمع آوری میشوند که هر رکورد شامل یک برچسب زمانی مربوط به فعالیت ارتباطی (به عنوان مثال، صدی، اس ام اس یا دادهها) و محل اتصال برج سلولی است. برای استفاده از سرویس، تلفن همراه باید از طریق نزدیکترین برج تلفن همراه به شبکه تلفن همراه متصل شود. بنابراین، هر بار که کاربر برای استفاده از خدمات تلفن همراه متصل می شود، اطلاعات ارتباطی و اطلاعات مکانی کاربر ضبط می شود. به طور خلاصه، CDRها یک داده رفتاری طولی را تشکیل می دهند که می تواند با روش معین تجزیه و تحلیل شوند و جنبه های گوناگون رفتار انسان را در سطوح مختلف تجمع در هر زمان و مکانی بررسی کنند.
داده های تلفن همراه مزایای زیادی نسبت به مجموعه داده های سنتی رفتاری انسان دارند که عمدتا از طریق نظرسنجیها و مصاحبه ها جمع آوری می شوند و نادرست، محدود، گران و وقت گیر هستند. لذا استفاده از داده های تلفن همراه یا CDRها بیشتر مورد توجه جامعه پژوهش قرار گرفته اند. دادههای تلفن همراه برای مطالعات تحقیقاتی در سالهای اخیر در دسترس بوده اند (Kiukkonen و همکاران، 2010؛ Blondel و همکاران، 2012؛ Laurila و همکاران، 2012؛ Montjoye و Smoreda، 2014)، تا جایی که مفید بودن آن در بسیاری از مطالعات با مزایایی در بسیاری از حوزه های کاربردی مانند توسعه منطقه ای، برنامه ریزی شهری (Montjoye و Smoreda، 2014) مهندسی حمل و نقل، جامعه شناسی و غیره آشکار شده است. با توجه به مسئله حفظ حریم خصوصی، برخی از کشورها قوانین سختگیرانه ای در مورد استفاده از اطلاعات حساس شخصی مانند پرونده پزشکی، کارت های سفر و CDR ها را اعمال می کنند. حتی با گمنام سازی داده ها، خطر افشای هویت شخصی همچنان استفاده از چنین داده هایی را در تحقیق محدود می کند. با این وجود، هنوز تعدادی از مجموعه داده های CDR وجود دارند که با احتیاط در تحقیقات مورد استفاده قرار گرفته اند (Blondel، Decuyper و Krings، 2015).
CDRها حاوی هر دو لیست مربوط به ارتباطات و ردیابی مکان هستند. لیست های ارتباطی اطلاعات مربوط به ارتباطات صوتی و متن را شامل می شود که شامل مدت زمان تماس، نشانگر زمانی، کاربران متصل شده و غیره است که می تواند برای توصیف و تحلیل شبکه های اجتماعی استفاده شود. شبکه شخصی یک سیستم پیچیده است که نیاز به درک خواص و مکانیزم آن دارد. استحکام اجتماعی (Onnela و همکاران، 2006)، پایداری گره ها (Navarro و همکاران، 2017)، ساختار شبکه (Saramäki و Moro، 2015)، و انتشار اطلاعات (Miritello، Moro and Lara، 2011) باید مورد بررسی قرار بگیرد. این یکی از تحقیقات در حال انجام در مورد تجزیه و تحلیل شبکه های اجتماعی است که از استفاده از داده های CDR سود می برد. از طریق تجزیه و تحلیل داده های CDR، محققان نتایج جالبی پیدا کرده اند. به عنوان مثال، Phithakkitnukoon و همکاران. بر اساس ساختار شبکه اجتماعی تلفن همراه با مشخص کردن قدرت گره های اجتماعی که بر اساس آن روابط به سه گروه تقسیم می شوند، بررسی کرده اند و میزان پیمایش در این سه گروه 8 است، یعنی هر اندازه گروه توسط 8 گروه مجاور اندازه گیری می شود. Aiello و همکاران (Aiello، Chung and Lu، 2000) میزان درجه قدرت (تعداد روابط اجتماعی فرد) را مشاهده کرد که توسط یک مدل گرافیکی تصادفی عظیم توصیف شد. توزیع درجه قدرت نشان می دهد که اکثر کاربران دارای تعداد کمی از مخاطبین (روابط یا درجه) هستند، در حالی که کسری کوچک از کاربران (گره ها) هاب ها یا سوپر کانکتورها هستند. مدت زمان تماس فردی تلفن همراه (توزیع مدت زمان تماس) را با مدل TLC که دارای دم و سرهای سنگین تر از توزیع نرمال log است، که می تواند برای تشخیص ناهنجاری ها، ایجاد مجموعه داده های مصنوعی و خلاصه تعداد بسیار زیادی از سوابق تماس تلفنی مورد بررسی قرار می دهیم. علاوه بر لیست های ارتباطات، CDRها همچنین مکان هایی را برای افراد فراهم می کنند که می توانند برای پیشبرد تحقیقات در زمینه پویایی و ارتباط بشر استفاده شوند، که برای درک رفتار حمل و نقل مهم است و نیاز به مقدار گسترده ای از داده ها دارد تا هر پدیده ای را با ویژگی های متقابل مرتبط بررسی کنیم.
تعدادی از مطالعات استفاده از CDRs در تحقیقات پویایی انسانی از یافته های جالب برخوردار بوده است. به عنوان مثال، Song و همکاران. (Song و همکاران، 2010) دریافتند که تحرک انسانی بسیار قابل پیش بینی است و نشانگر مرز بالایی از پیش بینی 93٪ است که به طور قابل توجهی ثابت بودن منظم در جنبش انسان را نشان می دهد. Phithakkitunukoon و همکاران بیشتر نشان می دهد که تحرکات انسانی به شدت تحت تاثیر شبکه های اجتماعی است؛ زیرا آنها متوجه شدند که 80٪ از مکان هایی که ما به آن سفر می کنیم فقط حدود 20 کیلومتر از از اشخاصی که می شناسیم فاصله دارد و و ما 15٪ احتمال بیشتری دارد که در نزدیکی افرادی که با آن ها روابط ضعیف داریم نسبت به افرادی که با آن ها ارتباط قوی تری داریم حرکت کنیم. اما چگونگی سفر ما نیز تحت تأثیر شبکه های اجتماعی ما قرار گرفته است، نشان می دهد که روابط قوی برای تعیین اینکه آیا رانندگی انتخاب حالت انتقال فرد است، مهمتر است (Phithakkitnukoon و همکاران، 2017). در حالی که در روابط ضعیف، مهمتر است تا تعیین شود که آیا حمل و نقل عمومی انتخاب شخص است یا خیر. درک تحرکات انسانی، در طراحی و برنامه ریزی سیستم حمل و نقل مفید است. دمیسی و همکاران (Demissie et al.، 2016) نشان می دهد که CDR ها می توانند مورد استفاده قرار گیرند تا نیازهای سفر را تشریح کنند که طراحی شبکه های حمل و نقل عمومی را آسان تر می کند، به ویژه برای کشورهای در حال توسعه که در آنها سفرهای سنتی حمل و نقل پرهزینه و نامناسب هستند. الگوی تحرک حاصل از CDR یک جایگزین معقول است احتمالا بهترین گزینه است. مطالعات قبلی به طور مناسب آنالیز هایی را انجام داده اند که با مجموعه داده های تلفن همراه انجام می شود و نتایج بسیار جالبی را با مفاهیم مفید ایجاد می کند، همانطور که قبلا ذکر شد. با این حال، این مجموعه داده ها تنها مشاهده جزئی از جمعیت را ارائه می دهند، زیرا آنها توسط داده های به دست آمده از برخی از ارائه دهنده ها محدود می شوند، که معمولا یک اپراتور مخابراتی منطقه ای که میزان پوشش خاصی دارد است اما 100٪ و کامل نیست. هیچ مطالعه ای در مورد بخش مناسب اطلاعات CDR گزارش نشده است که برای نشان دادن کل جمعیت مناسب باشد. نتایج حاصل از تجزیه و تحلیل از این طریق می توانند بر اساس ویژگی های کاربران یک ارائه دهنده شبکه تلفن همراه خاص باشد. هیچ مطالعه ای تمام داده های CDR کاربران را که از همه ارائه دهندگان منطقه ای داده اند جمع آوری نکرده است .بنابراين، هدف اين مطالعه، پر كردن اين فضا با انجام مطالعه داده هاي CDR از همه ارائه دهندگان در یک منطقه است. این مطالعه با هدف بررسی اینکه آیا داده های CDR می تواند به عنوان یک پروکسی برای درک تراکم جمعیت از سه دیدگاه متفاوت یعنی سهم بازار اپراتور، نسبت جمعیت شهری و روستایی و نسبت جنسیت کاربر استفاده شود، انجام شده است.
2. مجموعه داده
داده اصلی مورد استفاده در این مطالعه، داده های CDR ناشناس از تمام مشترکین سرویس تلفن همراه در یک شهر جنوب شرقی آسیا است. داده ها توسط همه اپراتورهای شبکه در شهر ارائه شده که مجموعا 1618265 کاربر تلفن همراه را شامل می شود که طی یک ماه کامل ماه مه 2014 جمع آوری شده است. در سال 2014 جمعیت شهر 1،256،654 نفر شامل 614،756 مرد (49٪) و 641،898 نفر از زنان (51٪). این اطلاعات بر اساس جدیدترین آمار سرشماری جمع آوری شده در سال 2014 است که با داده های CDR ما همزمان است.
در این کشور، هر 10 سال یک سرشماری انجام می شود. تعداد مشترکان تلفن همراه بالاتر از جمعیت شهر است که احتمالا به دلیل این واقعیت است که برخی از کاربران تلفن های دو سیمکارت را حمل می کردند و بیش از یک تلفن حمل می کردند (مثلا شماره های شخصی و تجاری). هر CDR حاوی شناسه های شناسایی نشده (caller's and callee's)، شناسه برج مخابراتی متصل شده، محل اتصال جغرافیایی برج سلولی، مدت زمان تماس و زمان بندی متصل شده است.
در این شهر پنج اپراتور شبکه تلفن همراه وجود دارد که مجموعا 4،630 برج سلولی را ارائه می دهد. هر اپراتور خدمات خود را از طریق یک شبکه تلفن همراه متشکل از تعداد مختلف آنتن (برج های سلولی) فراهم می کند.
تعداد مشترکین و برج های سلولی هر اپراتور در جدول 1 ذکر شده است. منطقه شهری حدود 11،600 کیلومتر مربع است که به 18 حوزه تقسیم شده است.
پوشش فضایی برج های سلولی در هر ناحیه در بین اپراتورها بسته به مشتریان هدف آنها متفاوت است، که به طور کلی با تراکم جمعیت منطقه تغییر می کند. شکل 1 تراکم برج سلولی (در کیلومتر مربع) به ازای هر ناحیه است. متوسط تراکم برج سلولی در هر ناحیه 0.40 km2 است. توزیع تراکم جمعیت در تمام 18 ناحیه در شکل 2 نشان داده شده است، تعداد کل جمعیت در هر منطقه (شکل 2a) و جمعیت در هر منطقه (شکل 2b) نشان داده شده است.
توزیع ویژگی های استفاده کاربران هر اپراتور شبکه از نظر اتصال (به عنوان مثال، فرکانس اتصالات)، مدت زمان تماس (دقیقه در هر تماس) و تحرک (به عنوان مثال، تعداد برج های سلولی متصل متمایز) در شکل 3 نشان داده شده است مقادیر متوسط و میانگین در جدول 2 نشان داده شده است.
3. روش و نتایج
با استفاده از CDR همه مشترکین در شهر، هدف ما بررسی میزان و ابعاد داده هایی است که می تواند کل جمعیت را در بر بگیرد. بنابراین توزیع تراکم جمعیت در تمام مناطق به عنوان معیار نمایندگی CDR ها به جمعیت واقعی مورد استفاده قرار می گیرد. نمایندگی داده ها می تواند با اندازه سهم بازار اپراتور، نسبت جمعیت شهری و روستایی و نسبت جنسیت متفاوت باشد. اینها ابعادی است که مطالعه ما به دنبال آن است.
برای به دست آوردن اطلاعات تراکم جمعیت از داده های CDR، مکان اول هر کاربر باید ابتدا تعریف شود، به طوری که جمعیت کاربر هر منطقه می تواند محاسبه شود. با استفاده از رویکرد مشابهی. (Phithakkitnukoon، Smoreda و Olivier، 2012)، برج سلولی که اغلب مورد استفاده قرار می گیرد در طول شب (ساعت 10 شب تا 7:00 صبح) به عنوان برج سلولی خانگی کاربر شناخته می شود. هر تراکم جمعیت منطقه براساس مکان های مورد نظر کاربر محاسبه شد. شکل 4 همبستگی بین تراکم جمعیت مبتنی بر CDR و اطلاعات سرشماری را با R-squared از 0.89 نشان می دهد.
جدول 1: تعداد برج های سلولی و مشترکین هر اپراتور شبکه تلفن همراه.
اپراتور |
تعداد برج های سلولی |
تعداد مشترکین |
1 |
1722 |
1056958 |
2 |
1913 |
489835 |
3 |
675 |
68213 |
4 |
85 |
1641 |
5 |
235 |
1618 |
شکل 1: تراکم برج های سلولی در هر منطقه از تمام اپراتورها.
شکل 2: توزیع تراکم جمعیت بر اساس سرشماری؛ تعداد کل در هر منطقه (a) و جمعیت به ازای هر کیلومترمربع.
شکل 3: توزیع ویژگی های کاربر در هر یک از پنج شبکه.
3.1 سهم بازار
از لحاظ آماری، داده های CDR از اپراتور با سهم بیشتر از بازار، جمعیت را بهتر نشان میدهد. با این حال، داده های اپراتور با سهم کمتر از بازار اما با توزیع جغرافیایی بیشتر کاربر، می توانند جمعیت را بهتر از داده های یک اپراتور با سهم بیشتری از بازار نشان دهند. برای سهم مشخص بازار، ما بررسی کردیم که داده های هر اپراتور شبیه جمعیت است.
همانند شکل 4، همبستگی بین مقادیر تراکم جمعیت با داده های سرشماری و CDR از هر اپراتور با سهم متفاوت بازار مورد بررسی قرار گرفت. شکل 5 نتیجه همبستگی بین هر یک از پنج اپراتور نسبت به تراکم جمعیت واقعی با سرشماری را نشان می دهد.
هر اپراتور دارای سهم بازار متفاوت است و تراکم جمعیت در سطح های مختلف را نشان می دهد که با مقدار همبستگی (R-squared) اندازه گیری می شود. مقادیر همبستگی مشاهده شده (به دو رقم اعشار) و سهم بازار مربوطه (براساس اطلاعات CDR) هر اپراتور در جدول 3 ذکر شده است. سهم بازار مشاهده شده در منطقه مطالعه مشابه سایر سهام بازار اپراتورهای مخابراتی در کشورهایی که در منطقه آسیای جنوب شرقی قرار دارند مانند اندونزی (44٪، 16٪، 15٪، 6٪، 4٪، 3٪، 2٪، 2٪)، تایلند (44.3٪، 27.4٪، 26.2٪ 1.78٪، 0.18٪) میانمار (66.6٪، 20.5٪، 13.3٪) و ویتنام (75.54٪، 22.96٪، 1.21٪، 0.23٪، 06.06٪) بود.
نمایش داده ها که با ارزش همبستگی اندازه گیری می شود با درصد سهم بازار اپراتور، به جز اپراتورهای 4 و 5 که سهم بازار مشابه، اما مقادیر همبستگی های مختلف دارند، افزایش می یابد. جالب است که فاصله بین مقادیر همبستگی در مقایسه با شکاف بین درصد سهم بازار، کوچک است. مقادیر همبستگی در مقایسه با پنج اپراتور (0.70-0.88) نسبتا بالا است، هرچند درصد سهم بازار از 10 درصد تا 65.31 درصد متفاوت است.
شکل 4: همبستگی بین تراکم جمعیت با سرشماری و تراکم جمعیت بر اساس داده های CDR.
شکل 5: همبستگی بین تراکم جمعیت با سرشماری و تراکم جمعیت بر اساس داده های CDR از پنج اپراتور مختلف با سهم بازار متفاوت.
اپراتور 3 می تواند یک مقدار همبستگی نسبتا بالا برابر 0.80 با سهم اندکی از 4.22٪ داشته باشد. اپراتور 2 دارای حدود هفت برابر سهم بازار بیشتر از اپراتور 3 است، اما تفاوت در مقادیر همبستگی فقط 02/0 افزایش دارد. این نشان می دهد که نمایش داده ها با میزان مشابه با سهم بازار مطابقت ندارد نمی دارد.
3.2 نسبت شهری و روستایی
بخشی از کاربران شهری و روستایی می تواند نقش مهمی در نمایش داده ها داشته باشد تا توزیع تراکم جمعیت شبیه سازی شود. توزیع جغرافیایی کاربران مهم است. برخی از اپراتورها ممکن است از نظر تعداد کاربران در برخی مناطق خاص تسلط داشته باشند، در حالی که برخی از اپراتورهای دیگر ممکن است کاربر را به طور مساوی از همه مناطق جذب کنند. بنابراین نمایندگی داده های CDR آنها می تواند متفاوت باشد.
جدول 2: میانگین آماری و مقادیر میانه استفاده از ویژگی های کاربران هر اپراتور شبکه.
اپراتور |
اتصال |
مدت تماس |
جابجایی |
|||
|
میانگین |
میانه |
میانگین |
میانه |
میانگین |
میانه |
1 |
38.32 |
4.00 |
246.32 |
105.50 |
6.38 |
2.00 |
2 |
80.58 |
29.00 |
83.49 |
43.56 |
6.88 |
4.00 |
3 |
44.97 |
9.00 |
155.36 |
84.30 |
4.80 |
2.00 |
4 |
12.32 |
2.00 |
120.46 |
69.75 |
1.90 |
1.00 |
5 |
154.86 |
45.00 |
113.05 |
73.33 |
10.03 |
5.00 |
شکل 6: میزان همبستگی بین تراکم جمعیت مبتنی بر سرشماری و CDR برای نسبت های مختلف جمعیت شهری و روستایی.
پوشش فضایی برج های سلولی در هر منطقه به طور کلی براساس تراکم جمعیت منطقه فرق می کند، بنابراین ما استفاده از پوشش برج سلولی برای توصیف مناطق شهری و روستایی پیشنهاد دادیم. بنابراین، ما اصطلاح "منطقه شهری" را بر اساس پوشش برج سلولی به عنوان یک منطقه با حداقل 0.7 cell towers / km2و "منطقه روستایی" به عنوان منطقه ای با کمتر از 0.7 cell towers / km2 تعریف کردیم. آستانه 0.7 cell towers / km2 بر اساس نتیجه در شکل 1 (چگالی برج سلولی در هر منطقه) بود که از آن می دانیم که سه ناحیه بالاتر در مناطق شهری هستند و بنابراین آستانه 0.7 cell towers / km2 انتخاب شده برای طبقه بندی منطقه است. 18 منطقه را می توان به 124 حوزه تقسیم کرد که بر اساس نوع آنها در مناطق شهری و روستایی طبقه بندی شده است. در مجموع 43 حوزه شهری و 81 حوزه روستایی وجود داشت. هدف ما بررسی نقش نمایندگی داده ها در شبیه سازی توزیع جمعیت در نسبت های مختلف جمعیت کاربر در مناطق شهری و روستایی بود. بنابراین، مقدار همبستگی (R-squared) بین جمعیت مبتنی بر CDR و جمعیت واقعی با سرشماری برای 11 نسبت متفاوت (درصد جمعیت شهری و روستایی)؛ 0: 100، 10:90، 20:80، 30:70، 40:60، 50:50، 60:40، 70:30، 80:20، 90:10، و 0: 100. برای هر نسبت، مناطق زیرشاخه به صورت تصادفی از گروه های شهری و روستایی انتخاب شدند تا نسبت آن را تشکیل دهند و سپس مقدار همبستگی محاسبه شد. این روند برای 10 بار برای هر نسبت تکرار شد، به طوری که نتیجه به یک انتخاب منحرف نمی شود. نتيجه در شکل 6 نشان داده شده است. از نتيجه در شكل 6، مقدار همبستگي (متوسط) به نظر مي رسد كه بخشی از جمعيت شهری افزايش می يابد. کمترین مقدار همبستگی برابر با 0: 100 و 10:90 است. بالاترین همبستگی مقدار 0.72 (با انحراف معیار استاندارد 10.10) در نسبت 80:20 است. این نتیجه نشان می دهد که نسبت شهری و روستایی 80:20 می تواند بهتر از توزیع تراکم جمعیت باشد.
3.3. نسبت جنسیتی
جمعیت ترکیبی از جنسیت هایی است که دارای ویژگی های متفاوت هستند. مطالعات قبلی (Frias-Martinez، Frias-Martinez و Oliver، 2010؛ Jahani et al.، 2017) نشان داده است که کاربران تلفن های همراه مرد و زن ، از لحاظ آماری رفتارهای مختلفی از قبیل شروع تماس، زمان پاسخ متنی، مدت زمان تماس، شماره از تماس های ورودی / خروجی و غیره نشان می دهند. بنابراین، نسبت جنسیت میتواند نقش مهمی در نمایندگی داده های CDR داشته باشد.
جدول 3: مقادیر همبستگی (R-squared) در برابر جمعیت سرشماری و سهم بازار هر اپراتور.
اپراتور |
سهم بازار(%) |
R-squared |
1 |
65.31 |
0.88 |
2 |
30.27 |
0.82 |
3 |
4.22 |
0.80 |
4 |
0.10 |
0.70 |
5 |
0.10 |
0.76 |
شکل 7: مقادیر همبستگی بین تراکم جمعیت مبتنی بر سرشماری و CDR برای نسبت های مختلف کاربران مرد و زن.
ما برای اولین بار هر کاربر را به گروه های مرد و زن تقسیم کردیم و با استفاده از پنج معیار از جاهانی و همکاران. (Jahani و همکاران، 2017)، یعنی زمان تماس شبانه، تماس در خانه، مدت زمان تماس، استفاده از آنتن، و شروع تماس دسته بندی کردیم. در نتیجه 780،634 مرد، 673،447 زن و 164،184 کاربر طبقه بندی نشده (عمدتا به علت کمبود داده ها برای برآوردن هر پنج معیار) به دست آمد. هدف ما بررسی نمایندگی داده های CDR با توجه به نسبت جنسیتی در ارتباط با داده های سرشماری بود، بنابراین، شبیه به بخش 3.2، ما همبستگی 11 نسبت جنسیتی مختلف (درصد مردان و زنان) را بررسی کردیم ؛ 0: 100، 10:90، 20:80، 30:70، 40:60، 50:50، 60:40، 70:30، 80:20، 90:10، و 0: 100. از آنجایی که تعداد مردان و زنان متفاوت بود، بنابراین برای بررسی هر نسبت، تعداد کل افراد تصادفی 600،000 بود. به طوری که برای مثال، نسبت 0: 100 شامل 600 هزار زن و بدون مرد به طور تصادفی انتخاب شده و برای نسبت 10:90، 60 هزار مرد به طور تصادفی انتخاب شده و 540 هزار زن به طور تصادفی انتخاب شده بودند و غیره. برای هر آزمون معیار، این انتخاب تصادفی برای 10 بار تکرار شد تا از تعصب بالقوه نسبت به یک انتخاب واحد جلوگیری شود. نتيجه در شکل 7 نشان داده شده است که ميانگين قواعد همبستگي در نسبت 50:50 (R2 = 0.74) و کمترین مقدار در نسبت 20:80 (R2 = 0.40) است. ارزش انحراف معیار استاندارد نسبتا کم است .نسبت ارزش (0.0011) بود. به طور مستقیم، نتیجه نشان می دهد که با ترکیب مساوی از کاربران مرد و زن (نسبت 50:50)، داده های CDR بیشتر می تواند شبیه تراکم جمعیت باشد. ما می خواهیم بفهمیم که در منطقه مورد مطالعه یک برابری جنسیتی وجود دارد یا خیر ، یعنی رفتار، اهداف و نیازهای زن و مرد، به طور مساوی مورد توجه و ارزیابی قرار می گیرد یا نه. حقوق، مسئولیت ها و فرصت های آنها بستگی به اینکه آیا آنها مرد یا زن هستند دسته بندی می شود. نتیجه مشاهده شده در اینجا تا حدودی نشان دهنده این واقعیت است که از لحاظ آماری به اندازه برابر مورد ارزیابی قرار گرفته اند.
4. نتیجه گیری
داده های تلفن همراه (CDR) مزایای زیادی نسبت به مجموعه داده های رفتاری سنتی انسان مانند نظرسنجی سفر درون مرزی، نظرسنجی خانوار و شمارش ترافیک دارد که معمولا از طریق پرسشنامه ها و مصاحبه ها جمع آوری می شوند که گران و وقت گیر هستند و همچنین نادرست به نظر می رسند زیرا ممکن است بر اساس یادآوری فعالیت های گذشته باشد. CDR ها داده های رفتاری طول زندگی واقعی را فراهم می کنند. CDR ها برای پیشبرد تحقیقات رفتار انسان در جهات مختلف با اکتشاف های جالب و مفیدی مورد استفاده قرار می گیرند، شاید فکر شود که این مجموعه داده های CDR فقط نمایشی جزئی از کل جمعیت را ارائه می دهند، زیرا داده های مورد استفاده محدود به پوشش خدمات برخی از اپراتورهای شبکه ارائه دهنده است. این مطالعه نشان داد که داده های CDR به دست آمده از اپراتورهای شبکه ای خاص می توانند کل جمعیت را نشان دهند، با بررسی نمایه پذیری داده ها در قالب ضریب همبستگی بین تراکم جمعیت CDR و داده های سرشماری از سه دیدگاه؛ سهم بازار اپراتور، نسبت جمعیت شهری و روستایی و نسبت جنسیت کاربر. مطالعه نشان می دهد که (i) نمایندگی داده های CDR طبق میزان مشابه با سهم بازار نزول نمی کند ، (ii) نسبت جمعیت شهری و روستایی 80 به 20 بهترین شکل توزیع تراکم جمعیت را نشان می دهد و (iii) مخلوط مساوی از جمعیت کاربر مرد و زن می تواند کاملن شبیه به تراکم جمعیت واقعی باشد.
اهمیت این مطالعه، نتایج تحلیلی به دست آمده از دیدگاه کلی از تمام کاربران تلفن همراه (1،618،265 کاربران) در یک منطقه مطالعه (11،600 کیلومتر مربع) است. این مطالعه اولین تحقیق در مورد نمایندگی داده های CDR از نظر سهم بازار، نسبت شهری و روستایی و نسبت جنسیت است، چرا که هیچ مطالعه قبلی تمام مشخصات تمام داده های تلفن همراه را تجزیه و تحلیل نکرده است. با این وجود، تعدادی محدودیت برای این مطالعه وجود دارد. ابتدا، پوشش فضایی داده های ما است که فقط یک شهر را ارائه می دهد. نتایج حاصل از تجزیه و تحلیل چند منطقه می تواند به طور بالقوه بهتر باشد، با این حال تعداد زیاد کاربران در این مطالعه ممکن است به میزان قابل توجهی جبران کرده و نتایج را منطبق کرده باشند. محدودیت دوم امکان استفاده از چندین تلفن همراه است که می تواند برخی از آمارهای فردی را که بر تراکم کلی جمعیت تاثیر می گذارد، تکثیر کند، با این حال این کاربران از بخش قابل توجهی (1،618،265-1،256،654 = 361،611 کاربر) 28.78٪ هستند که می شود چگونگی شناسایی و فیلتر این کاربران را در مطالعات آینده مورد بررسی قرار داد. یک رویکرد قابل قبول می تواند با استفاده از جستجوی الگوی شباهت با برخی از ویژگی های رفتاری در تمام کاربران یا تنها کسانی که به اشتراک گذاری همان برج سلولی خانگی تشکیل شود. یکی دیگر از محدودیت های بالقوه این است که میزان یافته ها فراتر از یک منطقه مطالعه (شهر جنوب شرقی آسیا) نیست. البته شهر در یک کشور در حال توسعه در منطقه جنوب شرقی آسیا، شباهت چشمگیری با بسیاری از شهرهای سراسر جهان دارد، بنابراین ما بر این باوریم که یافته ها احتمالا برای مناطق دیگر نیز قابل استفاده خواهند بود. اگر ویژگی های کاربران تلفن همراه در مناطق دیگر به طور قابل توجهی متفاوت از این مطالعه باشد، یافته های ما هنوز هم می تواند بعنوان یک ارزیابی از داده های CDR در سال 2014 در یک شهر جنوب شرقی آسیا ارزشمند باشد.
این مطالعه نشان دهنده روند تجزیه و تحلیل داده های بزرگ است که کمک می کند تا درک ما از نمایندگی داده های گسترده CDR که می توانند برای آشکار سازی دیدگاه های متمایز رفتار انسانی استفاده شوند ، گسترش یابد. ما بر این باوریم که یافته های ما دانش جدید و اطلاعات مهمی را برای استفاده از CDR فراهم کرده است.
اعلامیه دسترسی به اطلاعات
مجموعه داده های مورد استفاده در این مطالعه توسط کمیسیون مخابرات یک کشور جنوب شرق آسیا ارائه شده است. نمونه ای از داده ها را می توان در صورت درخواست به سایر محققان برای مقاصد علمی و غیر تجاری با نویسندگان ارائه داد.
سپاسگزاری ها
نویسندگان از حمایت مالی ارائه شده توسط دانشگاه Thammasat تحت پژوهشگر TU New Research شماره 16/2559 قدردانی می کنند.
منافع رقابتی
نویسندگان ادعای هیچ منافع رقابتی ندارند.
سهم نویسندگان
SP و TH این مطالعه را طراحی و ایجاد کرده اند. SP و TH داده ها و نتایج را تجزیه و تحلیل کردند. TP داده ها را پردازش کرد. SP، TP، و TH نوشتار را نوشتند. همه نویسندگان مقاله نهایی را خوانده و تایید کرده اند.
منابع
Aiello, W, Chung, F and Lu, L. 2000. ‘A random graph model for massive graphs’. In: Proceedings of the thirty-second annual ACM symposium on Theory of computing – STOC’00. DOI: https://doi. org/10.1145/335305.335326
Blondel, VD, et al. 2012. ‘Data for Development: the D4D Challenge on Mobile Phone Data’. arXiv:1210.0137, 1–10. Available at: http://arxiv.org/abs/1210.0137.
Blondel, VD, Decuyper, A and Krings, G. 2015. ‘A survey of results on mobile phone datasets analysis’. EPJ Data Science. DOI: https://doi.org/10.1140/epjds/s13688-015-0046-0
Demissie, MG, et al. 2016. ‘Inferring Passenger Travel Demand to Improve Urban Mobility in Developing Countries Using Cell Phone Data: A Case Study of Senegal’. IEEE Transactions on Intelligent Transportation Systems, 17(9). DOI: https://doi.org/10.1109/TITS.2016.2521830
Frias-Martinez, V, Frias-Martinez, E and Oliver, N. 2010. ‘A Gender-Centric Analysis of Calling Behavior in a Developing Economy Using Call Detail Records.’. … Intelligence for Development.
Jahani, E, et al. 2017. ‘Improving official statistics in emerging markets using machine learning and mobile phone data’. EPJ Data Science. DOI: https://doi.org/10.1140/epjds/s13688-017-0099-3
Kiukkonen, N, et al. 2010. ‘Towards rich mobile phone datasets: Lausanne data collection campaign’. Proceedings ACM International Conference on Pervasive Services (ICPS).
Laurila, JK, et al. 2012. ‘The mobile data challenge: Big data for mobile computing research’. Proceedings of the Workshop on the Nokia Mobile Data Challenge, in Conjunction with the 10th International Conference on Pervasive Computing. DOI: https://doi.org/10.1016/j.pmcj.2013.07.014
Miritello, G, Moro, E and Lara, R. 2011. ‘Dynamical strength of social ties in information spreading’. Physical Review E – Statistical, Nonlinear, and Soft Matter Physics. DOI: https://doi.org/10.1103/PhysRevE.83.045102
Montjoye, YDe and Smoreda, Z. 2014. ‘D4D-Senegal: The Second Mobile Phone Data for Development Challenge’. arXiv.
Navarro, H, et al. 2017. ‘Temporal patterns behind the strength of persistent ties’. EPJ Data Science. DOI: https://doi.org/10.1140/epjds/s13688-017-0127-3
Onnela, J-P, et al. 2006. ‘Structure and tie strengths in mobile communication networks’. Proceedings of the National Academy of Sciences (PNAS), 104(18): 7332–7336. DOI: https://doi.org/10.1073/ pnas.0610245104
Phithakkitnukoon, S, et al. 2017. ‘Inferring social influence in transport mode choice using mobile phone data’. EPJ Data Science, 6(1). DOI: https://doi.org/10.1140/epjds/s13688-017-0108-6
Phithakkitnukoon, S and Dantu, R. 2011. ‘Mobile social group sizes and scaling ratio’. AI and Society, 26(1). DOI: https://doi.org/10.1007/s00146-009-0230-5
Phithakkitnukoon, S, Smoreda, Z and Olivier, P. 2012. ‘Socio-geography of human mobility: A study using longitudinal mobile phone data’. PLoS ONE, 7(6). DOI: https://doi.org/10.1371/journal.pone.0039253
Saramäki, J and Moro, E. 2015. ‘From seconds to months: an overview of multi-scale dynamics of mobile telephone calls’. European Physical Journal B. DOI: https://doi.org/10.1140/epjb/e2015-60106-6
Song, C, et al. 2010. ‘Limits of predictability in human mobility’. Science. DOI: https://doi.org/10.1126/ science.1177170
Vaz De Melo, POS, et al. 2010. ‘Surprising patterns for the call duration distribution of mobile phone users’. in Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). DOI: https://doi.org/10.1007/978-3-642-15939-8_23