Mohammad Khodizadeh - PhD (دکتر محمد خودی زاده)
Improving Data Veracity by Conflict Resolution in Spatial Data Fusion
Paper: https://link.springer.com/article/10.1007/s10489-020-01959-y
بهبود صحت دادهها با مدیریت تعارضات در ترکیب دادههای مکانی
بهرهبرداری از حجم زیاد دادههایی که در منابع مختلف و ناهمگون ذخیره شده است، نقش موثری در توسعه جوامع دارد. یکی از اقدامات مهم در بهرهبرداری از دادهها ترکیب آنها میباشد که یک دید یکپارچه از دادهها ارائه میکند. اگر کیفیت دادههایِ مبنای تصمیمگیری پایین باشد و یا ترکیب آنها با کیفیت مناسبی صورت نپذیرد تصمیمات با خطا همراه خواهند بود. بخش قابل توجهی از تصمیمات امروزه جنبه مکانی دارد و یکی از چالشهای اساسی که کیفیت دادههای مکانی را تحتالشعاع قرار میدهد موضوع ناسازگاری[1] منابع دادهای با هم است.
برخی از ناسازگاریها در داخل یک مجموعه داده و برخی دیگر بین مجموعه دادههای مختلف رخ میدهند. احتمال ناسازگاری بین مجموعههای مختلف بیشتر است چرا که هر مجموعه داده ممکن است توسط افراد مختلف تولید، در زمانهای مختلف بروز و اهداف مختلفی را دنبال کرده باشد. برخی از ناسازگاریها، واقعاً وجود دارند و باید به کمک روشهایی مانند رأیگیری و میانگینگیری در مورد آنها قضاوت کرد اما برخی دیگر، ظاهری هستند و به خاطر بازنمایی متفاوت دادهها، ناسازگار به نظر میرسند. هدف این تحقیق، مدیریت ناسازگاریهای ظاهری است که با شناسایی آنها میتوان شناخت از موجودیتها و تطابق و در نهایت ترکیب اطلاعات را بهبود بخشید.
یکی از عملیات [2]کلیدی در ترکیب دادهها موضوع شناسایی موجودیتها و مفاهیم یکسان و مشابه هست. از ضعفهای روشهای موجود، می توان عدم توجه به سطح تجرید و ریزدانگیِ[3] متفاوت دادهها در منابع مختلف را نام برد. توجه نکردن به تفاوت ریزدانگیها باعث پدید آمدن تعارضات و ناسازگاریهایی میشود که در صورت عدم مدیریت صحیح آنها، فرآیند شناسایی موجودیتها، توأم با اشتباه خواهد بود و در نتیجه ترکیب حاصل از این دادهها از صحت کافی برای تصمیمات برخوردار نخواهد شد.
برای رسیدن به هدف پژوهش، ابتدا یک چارچوب کاری ارائهشده و سپس در قالب آن مدیریت تعارضات با هدف بهبود شناسایی موجودیتها و ترکیب دادهها انجام میشود. الگوریتم های معرفیشده در این چارچوب بهگونهای هستند که با ارائه دادههای جدید به آن، نیازمند بررسیِ تمام موارد از ابتدا نیست و فقط مواردی که به خاطر دادههای جدید ظهور کردهاند را بررسی میکنند. در این پژوهش مفهوم دانه[4] و ریزدانگی عنصر کلیدی است. شناسایی موجودیتهای مکانی، تشکیل دانههای مکانی، شناسایی ارتباط بین دانهها، خوشهبندی دانههای مکانی کمک میکند تا تفاوت ریزدانگیها بهنحو مطلوبی مدیریت شود. در راهحل ارائه شده برای کاهش تعداد مقایسهها که در عملِ تطابقِ موجودیتها گلوگاه مهمی محسوب میشود یک روش بلاکبندی دادهها مبتنی بر خصوصیات جغرافیایی معرفی شده است.
اگرچه رویکرد پیشنهادی مبتنی بر ریزدانگی قابل تعمیم به حوزههای مختلفی است، اما با توجه به اهمیت و کاربردِ گسترده ، تمرکز پژوهش روی داده های مکانی است و ایدههای مطرح شده، روی مجموعه داده واقعی در مورد سوانح هوایی آزمایش شدهاست. ساخت این مجموعه داده و تبدیل آن به شکلی که بتوان از آن بهمنظور ارزیابی نتایج استفاده کرد از دیگر نتایج کار است. ایدههای مطرح شده، علیرغم آنکه روی دادههای مکانی آزمایش شدهاند ولی روی هر نوع دادهای که بتوان سلسلهمراتبی از مفاهیم و مقادیر آن را بهدست آورد قابل اعمال هستند. بهکارگیری دیدگاه مبتنی بر ریزدانگی روی چندین روش مطرح در حوزه دادههای مکانی، کیفیت ترکیب دادهها را به استناد شاخص F-Score از 3 تا 15 درصد در روشهای مختلف بهبود داده است.
کلمات کلیدی:
ترکیب دادهها، ریزدانگی دادهها، تشخیص موجودیتهای یکسان، دادههای مکانی