For Better Performance Please Use Chrome or Firefox Web Browser

Mohammad Khodizadeh - PhD (دکتر محمد خودی زاده)

Improving Data Veracity by Conflict Resolution in Spatial Data Fusion

Paper: https://link.springer.com/article/10.1007/s10489-020-01959-y

 

بهبود صحت داده‌ها با مدیریت تعارضات در ترکیب داده‌های مکانی

بهره­برداری از حجم زیاد داده­هایی که در منابع مختلف و ناهمگون ذخیره شده است، نقش موثری در توسعه جوامع دارد. یکی از اقدامات مهم در بهره­برداری از داده‌ها ترکیب آن‌ها می‌باشد که یک دید یکپارچه از داده‌ها ارائه می‌کند. اگر کیفیت داده‌هایِ مبنای تصمیم‌گیری پایین باشد و یا ترکیب آن‌ها با کیفیت مناسبی صورت نپذیرد تصمیمات با خطا همراه خواهند بود. بخش قابل توجهی از تصمیمات امروزه جنبه مکانی دارد و یکی از چالش‌های اساسی که کیفیت داده‌های مکانی را تحت‌الشعاع قرار می‌دهد موضوع ناسازگاری[1] منابع داده‌ای با هم است.

برخی از ناسازگاری‌ها در داخل یک مجموعه داده و برخی دیگر بین مجموعه داده‌های مختلف رخ می‌دهند. احتمال  ناسازگاری بین مجموعه­های مختلف  بیشتر است چرا که هر مجموعه داده ممکن است توسط افراد مختلف تولید، در زمان‌های مختلف بروز و اهداف مختلفی را دنبال کرده باشد. برخی از ناسازگاری‌ها، واقعاً وجود دارند و باید به کمک روش‌هایی مانند رأی‌گیری و میانگین‌گیری در مورد آن‌ها قضاوت کرد اما برخی دیگر، ظاهری هستند و به خاطر بازنمایی متفاوت داده‌ها، ناسازگار به نظر می‌رسند. هدف این تحقیق، مدیریت ناسازگاری‌های ظاهری است که با شناسایی آن­ها می‌توان شناخت از موجودیت‌ها و تطابق و در نهایت ترکیب اطلاعات را بهبود بخشید.

یکی از عملیات [2]کلیدی در ترکیب داده‌ها موضوع شناسایی موجودیت‌ها و مفاهیم یکسان و مشابه هست. از ضعف‌های روش­های موجود، می توان عدم توجه به سطح تجرید و ریزدانگیِ[3] متفاوت داده‌ها در منابع مختلف را نام برد. توجه نکردن به تفاوت ریزدانگی‌ها باعث پدید آمدن تعارضات و ناسازگاری‌هایی می‌شود که در صورت عدم مدیریت صحیح آن‌ها، فرآیند شناسایی موجودیت‌ها، توأم با اشتباه خواهد بود و در نتیجه ترکیب حاصل از این داده‌ها از صحت کافی برای تصمیمات برخوردار نخواهد شد.

برای رسیدن به هدف پژوهش، ابتدا یک چارچوب کاری ارائه‌شده و سپس در قالب آن مدیریت تعارضات با هدف بهبود شناسایی موجودیت‌ها و ترکیب داده‌ها انجام می‌شود. الگوریتم های معرفی‌شده در این چارچوب به‌گونه‌ای هستند که با ارائه داده‌های جدید به آن، نیازمند بررسیِ تمام موارد از ابتدا نیست و فقط مواردی که به خاطر داده‌های جدید ظهور کرده‌اند را بررسی می‌کنند. در این پژوهش مفهوم دانه[4] و ریزدانگی عنصر کلیدی است. شناسایی موجودیت‌های مکانی، تشکیل دانه‌های مکانی، شناسایی ارتباط بین دانه‌ها، خوشه‌بندی دانه‌های مکانی کمک می‌کند تا تفاوت ریزدانگی‌ها به‌نحو مطلوبی مدیریت شود. در راه­حل ارائه شده برای کاهش تعداد مقایسه‌ها که در عملِ تطابقِ موجودیت‌ها گلوگاه مهمی محسوب می‌شود یک روش بلاک‌بندی داده‌ها مبتنی بر خصوصیات جغرافیایی معرفی شده است.

اگرچه رویکرد پیشنهادی مبتنی بر ریزدانگی قابل تعمیم به حوزه‌های مختلفی است، اما با توجه به اهمیت و کاربردِ گسترده ، تمرکز پژوهش روی داده های مکانی است و ایده­های مطرح شده، روی مجموعه داده واقعی در مورد سوانح هوایی آزمایش شده‌است. ساخت این مجموعه داده و تبدیل آن به شکلی که بتوان از آن به‌منظور ارزیابی نتایج استفاده کرد از دیگر نتایج کار است. ایده‌های مطرح شده، علیرغم آنکه روی داده‌های مکانی آزمایش شده‌اند ولی روی هر نوع داده‌ای که بتوان سلسله‌مراتبی از مفاهیم و مقادیر آن را به‌دست آورد قابل اعمال هستند. به‌کارگیری دیدگاه مبتنی بر ریزدانگی روی چندین روش مطرح در حوزه داده‌های مکانی، کیفیت ترکیب داده‌ها را به استناد شاخص F-Score از 3 تا 15 درصد در روش­های مختلف بهبود داده است.

کلمات کلیدی:  

ترکیب داده­ها،  ریزدانگی داده­ها،   تشخیص موجودیت­های یکسان،  داده­های مکانی

 

 

Grade: 
Graduated
Website: 
https://www.linkedin.com/in/mohammad-khodizadeh/