Mohammad Khodizadeh - PhD (دکتر محمد خودی زاده)

Improving Data Veracity by Conflict Resolution in Spatial Data Fusion

Paper: https://link.springer.com/article/10.1007/s10489-020-01959-y

بهبود صحت داده‌ها با مدیریت تعارضات در ترکیب داده‌های مکانی

بهرهبرداری از حجم زیاد دادههایی که در منابع مختلف و ناهمگون ذخیره شده است، نقش موثری در توسعه جوامع دارد. یکی از اقدامات مهم در بهرهبرداری از داده‌ها ترکیب آن‌ها می‌باشد که یک دید یکپارچه از داده‌ها ارائه می‌کند. اگر کیفیت داده‌هایِ مبنای تصمیم‌گیری پایین باشد و یا ترکیب آن‌ها با کیفیت مناسبی صورت نپذیرد تصمیمات با خطا همراه خواهند بود. بخش قابل توجهی از تصمیمات امروزه جنبه مکانی دارد و یکی از چالش‌های اساسی که کیفیت داده‌های مکانی را تحت‌الشعاع قرار می‌دهد موضوع ناسازگاری[1] منابع داده‌ای با هم است.

برخی از ناسازگاری‌ها در داخل یک مجموعه داده و برخی دیگر بین مجموعه داده‌های مختلف رخ می‌دهند. احتمال ناسازگاری بین مجموعههای مختلف بیشتر است چرا که هر مجموعه داده ممکن است توسط افراد مختلف تولید، در زمان‌های مختلف بروز و اهداف مختلفی را دنبال کرده باشد. برخی از ناسازگاری‌ها، واقعاً وجود دارند و باید به کمک روش‌هایی مانند رأی‌گیری و میانگین‌گیری در مورد آن‌ها قضاوت کرد اما برخی دیگر، ظاهری هستند و به خاطر بازنمایی متفاوت داده‌ها، ناسازگار به نظر می‌رسند. هدف این تحقیق، مدیریت ناسازگاری‌های ظاهری است که با شناسایی آنها می‌توان شناخت از موجودیت‌ها و تطابق و در نهایت ترکیب اطلاعات را بهبود بخشید.

یکی از عملیات [2]کلیدی در ترکیب داده‌ها موضوع شناسایی موجودیت‌ها و مفاهیم یکسان و مشابه هست. از ضعف‌های روشهای موجود، می توان عدم توجه به سطح تجرید و ریزدانگیِ[3] متفاوت داده‌ها در منابع مختلف را نام برد. توجه نکردن به تفاوت ریزدانگی‌ها باعث پدید آمدن تعارضات و ناسازگاری‌هایی می‌شود که در صورت عدم مدیریت صحیح آن‌ها، فرآیند شناسایی موجودیت‌ها، توأم با اشتباه خواهد بود و در نتیجه ترکیب حاصل از این داده‌ها از صحت کافی برای تصمیمات برخوردار نخواهد شد.

برای رسیدن به هدف پژوهش، ابتدا یک چارچوب کاری ارائه‌شده و سپس در قالب آن مدیریت تعارضات با هدف بهبود شناسایی موجودیت‌ها و ترکیب داده‌ها انجام می‌شود. الگوریتم های معرفی‌شده در این چارچوب به‌گونه‌ای هستند که با ارائه داده‌های جدید به آن، نیازمند بررسیِ تمام موارد از ابتدا نیست و فقط مواردی که به خاطر داده‌های جدید ظهور کرده‌اند را بررسی می‌کنند. در این پژوهش مفهوم دانه[4] و ریزدانگی عنصر کلیدی است. شناسایی موجودیت‌های مکانی، تشکیل دانه‌های مکانی، شناسایی ارتباط بین دانه‌ها، خوشه‌بندی دانه‌های مکانی کمک می‌کند تا تفاوت ریزدانگی‌ها به‌نحو مطلوبی مدیریت شود. در راهحل ارائه شده برای کاهش تعداد مقایسه‌ها که در عملِ تطابقِ موجودیت‌ها گلوگاه مهمی محسوب می‌شود یک روش بلاک‌بندی داده‌ها مبتنی بر خصوصیات جغرافیایی معرفی شده است.

اگرچه رویکرد پیشنهادی مبتنی بر ریزدانگی قابل تعمیم به حوزه‌های مختلفی است، اما با توجه به اهمیت و کاربردِ گسترده ، تمرکز پژوهش روی داده های مکانی است و ایدههای مطرح شده، روی مجموعه داده واقعی در مورد سوانح هوایی آزمایش شده‌است. ساخت این مجموعه داده و تبدیل آن به شکلی که بتوان از آن به‌منظور ارزیابی نتایج استفاده کرد از دیگر نتایج کار است. ایده‌های مطرح شده، علیرغم آنکه روی داده‌های مکانی آزمایش شده‌اند ولی روی هر نوع داده‌ای که بتوان سلسله‌مراتبی از مفاهیم و مقادیر آن را به‌دست آورد قابل اعمال هستند. به‌کارگیری دیدگاه مبتنی بر ریزدانگی روی چندین روش مطرح در حوزه داده‌های مکانی، کیفیت ترکیب داده‌ها را به استناد شاخص F-Score از 3 تا 15 درصد در روشهای مختلف بهبود داده است.

کلمات کلیدی:

ترکیب دادهها، ریزدانگی دادهها، تشخیص موجودیتهای یکسان، دادههای مکانی

Grade:

Graduated

Website:

https://www.linkedin.com/in/mohammad-khodizadeh/

Search form

Mohammad Khodizadeh - PhD (دکتر محمد خودی زاده)