ترجمهای از راهنمای کوتاه برای عبارات منظم در جاوا را که توسط جف فریسن برای وبسایت
javaworld نوشته شده است، به اطلاع شما میرسانیم . برای سهولت در مطالعه مقاله را به چند قسمت تقسیم کرده ایم.
عبارات منظم در جاوا، قسمت 1
ادغام چندین محدوده |
با قرار دادن آنها در کنار هم می توانید چندین محدوده را در یک کلاس کاراکتر محدوده واحد ادغام کنید. به عنوان مثال، کلاس [a-zA-Z] تمام حروف الفبای لاتین را با حروف کوچک یا بزرگ مطابقت می دهد. |
ادغام چندین محدوده
با قرار دادن آنها در کنار هم می توانید چندین محدوده را در یک کلاس کاراکتر محدوده واحد ادغام کنید. به عنوان مثال، کلاس
[a-zA-Z]
تمام حروف الفبای لاتین را با حروف کوچک یا بزرگ مطابقت می دهد.
ترکیب کلاس های شخصیت
یک اتحادیه کلاس کاراکتر از چندین کلاس کاراکتر تودرتو تشکیل شده است و با تمام کاراکترهای اتحاد حاصل مطابقت دارد. به عنوان مثال، کلاس
[a-d[m-p]]
کاراکترهای از
a
به
d
و از
m
به را مطابقت می دهد
p
. مثال زیر را در نظر بگیرید:
java RegexDemo [ab[c-e]] abcdef
این مثال کاراکترهای
a
,
b
, و ,
c
را که برای آنها مطابقت دارد در :
d
e
abcdef
regex = [ab[c-e]]
input = abcdef
Found [a] starting at 0 and ending at 0
Found [b] starting at 1 and ending at 1
Found [c] starting at 2 and ending at 2
Found [d] starting at 3 and ending at 3
Found [e] starting at 4 and ending at 4
تقاطع کلاس کاراکتر
تقاطع کلاس های کاراکتر از کاراکترهای مشترک برای همه کلاس های تودرتو تشکیل شده است و فقط با کاراکترهای مشترک مطابقت دارد. به عنوان مثال، کلاس با
[a-z&&[d-f]]
کاراکترها مطابقت دارد و . مثال زیر را در نظر بگیرید: توجه داشته باشید که در سیستم عامل ویندوز من، دو نقل قول مورد نیاز است زیرا پوسته فرمان آنها را به عنوان یک جداکننده دستور در نظر می گیرد. این مثال فقط شخصیتی را پیدا می کند که در :
d
e
f
java RegexDemo "[aeiouy&&[y]]" party
&
y
party
regex = [aeiouy&&[y]]
input = party
Found [y] starting at 4 and ending at 4
کم کردن کلاس های کاراکتر
کلاسهای کاراکتر تفریق شامل همه نویسهها به جز آنهایی است که در کلاسهای کاراکتر تودرتو قرار دارند، و فقط با کاراکترهای باقیمانده مطابقت دارد. به عنوان مثال، کلاس
[a-z&&[^m-p]]
کاراکترهای از
a
به
l
و از
q
به را مطابقت میدهد
z
:
java RegexDemo "[a-f&&[^a-c]&&[^e]]" abcdefg
این مثال کاراکترهایی
d
را پیدا میکند
f
که برای آنها مطابقت دارد
abcdefg
:
regex = [a-f&&[^a-c]&&[^e]]
input = abcdefg
Found [d] starting at 3 and ending at 3
Found [f] starting at 5 and ending at 5
کلاس های کاراکتر از پیش تعریف شده
برخی از کلاس های کاراکتر به اندازه کافی در
عبارات منظم ظاهر می شوند تا استفاده از علامت کوتاه را توجیه کنند. کلاس
Pattern
کلاس های کاراکتر از پیش تعریف شده را به عنوان اختصارات ارائه می دهد. میتوانید از آنها برای سادهسازی عبارات منظم و به حداقل رساندن خطاهای نحوی استفاده کنید. چندین دسته از کلاس های کاراکتر از پیش تعریف شده وجود دارد:
java.lang.Character
ویژگی های استاندارد، POSIX و Unicode مانند اسکریپت، بلوک، دسته بندی و باینری. لیست زیر فقط دسته کلاس های استاندارد را نشان می دهد:
\d
: عدد. معادل [0-9]
.
\D
: کاراکتر غیر عددی. معادل [^0-9]
.
\s
: کاراکتر فضای خالی. معادل [ \t\n\x0B\f\r]
.
\S
: یک کاراکتر فضای خالی نیست. معادل [^\s]
.
\w
: نماد واژه ساز. معادل [a-zA-Z_0-9]
.
\W
: شخصیت کلمه ساز نیست. معادل [^\w]
.
مثال زیر از یک کلاس کاراکتر از پیش تعریف شده
\w
برای توصیف همه کاراکترهای کلمه در متن ورودی استفاده می کند:
java RegexDemo \w "aZ.8 _"
به نتایج اجرای زیر دقت کنید، که نشان می دهد کاراکترهای نقطه و فاصله کاراکتر کلمه در نظر گرفته نمی شوند:
regex = \w
input = aZ.8 _
Found [a] starting at 0 and ending at 0
Found [Z] starting at 1 and ending at 1
Found [8] starting at 3 and ending at 3
Found [_] starting at 5 and ending at 5
جداکننده های خطوط |
مستندات کلاس SDK، Pattern متاکاراکتر نقطهای را به عنوان یک کلاس کاراکتر از پیش تعریفشده توصیف میکند که با هر کاراکتری بهجز جداکنندههای خط (توالیهای یک یا دو نویسهای که انتهای یک خط را مشخص میکنند) مطابقت دارد. استثنا حالت dotall است (که در ادامه به آن خواهیم پرداخت)، که در آن نقاط نیز با جداکننده خطوط مطابقت دارند. کلاس Pattern جداکننده های خط زیر را متمایز می کند:
- کاراکتر بازگشت کالسکه (
\r );
- کاراکتر خط جدید (نماد برای پیشبرد کاغذ یک خط) (
\n );
- یک کاراکتر بازگشتی کالسکه بلافاصله پس از آن یک کاراکتر خط جدید (
\r\n );
- کاراکتر خط بعدی (
\u0085 );
- کاراکتر جداکننده خط (
\u2028 );
- نماد جداکننده پاراگراف (
\u2029 )
|
گروه های اسیر شده
گروه ضبط برای ذخیره مجموعه کاراکترهای یافت شده برای استفاده بیشتر هنگام جستجو بر اساس الگو استفاده می شود. این ساختار دنباله ای از کاراکترها است که در متاکاراکترها با پرانتز (
( )
) محصور شده اند. هنگام جستجو بر اساس الگو، همه کاراکترهای درون گروه گرفته شده به عنوان یک کل واحد در نظر گرفته می شوند. به عنوان مثال، گروه ضبط (
Java
) حروف
J
،
a
و
v
را
a
در یک واحد ترکیب می کند. این گروه ضبط، همه موارد رخداد الگو را
Java
در متن ورودی پیدا می کند. با هر مسابقه، کاراکترهای ذخیره شده قبلی
Java
با شخصیت های بعدی جایگزین می شوند. گروههای گرفته شده را میتوان در گروههای دیگر دستگیر شده تودرتو کرد. به عنوان مثال، در یک عبارت منظم،
(Java( language))
یک گروه
(language)
در داخل یک گروه تودرتو شده است
(Java)
. به هر گروه ضبط تودرتو یا غیر تودرتو، شماره ای اختصاص داده می شود که از 1 شروع می شود و شماره گذاری از چپ به راست انجام می شود. در مثال قبلی،
(Java( language))
کبریتها گروه شماره 1 را میگیرند و
(language)
کبریتها گروه شماره 2 را میگیرند. در عبارت منظم
(a)(b)
،
(a)
کبریتها گروه شماره 1 را میگیرند و
(b)
گروه شماره 2 را ضبط میکنند
. مسابقات ذخیره شده توسط گروههای ضبط را میتوان بعداً با استفاده از ارجاعهای برگشتی مشاهده کرد. به عنوان یک کاراکتر بک اسلش و به دنبال آن یک کاراکتر عددی مربوط به تعداد گروهی که گرفته شده است، به شما امکان می دهد به کاراکترهای متن گرفته شده توسط گروه اشاره کنید. داشتن یک بک لینک باعث می شود که تطبیق دهنده به نتیجه جستجوی ذخیره شده گروه گرفته شده بر اساس شماره آن مراجعه کند و سپس از کاراکترهای آن نتیجه برای جستجوی بیشتر استفاده کند. مثال زیر استفاده از یک مرجع بازگشتی برای یافتن خطاهای گرامری در متن را نشان می دهد:
java RegexDemo "(Java( language)\2)" "The Java language language"
این مثال
(Java( language)\2)
از یک عبارت منظم برای یافتن یک خطای گرامری با کلمه تکراری
language
بلافاصله
Java
در متن ورودی استفاده می کند
"The Java language language"
. این عبارت منظم دو گروه را برای گرفتن مشخص می کند: شماره 1 –
(Java( language)\2)
مربوط به
Java language language
و شماره 2 –
(language)
مربوط به کاراکتر فاصله و به دنبال آن
language
. مرجع برگشتی
\2
اجازه می دهد تا نتیجه ذخیره شده گروه شماره 2 دوباره مورد بازبینی قرار گیرد تا تطبیق دهنده بتواند دومین رخداد یک فاصله و به دنبال آن را
language
بلافاصله پس از اولین وقوع یک فاصله جستجو کند
language
. نتایج این دیدار
RegexDemo
به شرح زیر است:
regex = (Java( language)\2)
input = The Java language language
Found [Java language language] starting at 4 and ending at 25
تطبیق کننده های مرزی
گاهی اوقات شما نیاز دارید که یک تطبیق الگو در ابتدای یک خط، در مرزهای کلمه، در انتهای متن و غیره انجام دهید. میتوانید این کار را با استفاده از یکی از تطبیقدهندههای لبه کلاس
Pattern
، که ساختارهای عباراتی منظم هستند که در مکانهای زیر جستجو میکنند، انجام دهید:
^
: شروع خط;
$
: آخر خط؛
\b
: مرز کلمه;
\B
: مرز شبه واژه;
\A
: شروع متن;
\G
: پایان مسابقه قبلی;
\Z
: انتهای متن، به استثنای جداکننده خطوط انتهایی (در صورت وجود)؛
\z
: انتهای متن
مثال زیر از
^
متاکاراکتر تطبیق کننده مرزی برای یافتن خطوطی استفاده می کند که با
The
نویسه های صفر یا چند کلمه ای به دنبال آن شروع می شوند:
java RegexDemo "^The\w*" Therefore
کاراکتر
^
مشخص می کند که سه کاراکتر اول متن ورودی باید با کاراکترهای الگوی متوالی مطابقت داشته باشند
T
،
h
و
e
که می تواند با هر عددی دنبال شود. نمادهای کلمه ساز اینم نتیجه اجرا:
regex = ^The\w*
input = Therefore
Found [Therefore] starting at 0 and ending at 8
اگر خط فرمان را به تغییر دهید چه اتفاقی می افتد
java RegexDemo "^The\w*" " Therefore"
؟ هیچ منطبقی پیدا نخواهد شد زیرا
Therefore
قبل از متن ورودی یک کاراکتر فاصله وجود دارد.
طول صفر مطابقت دارد
گاهی اوقات هنگام کار با تطبیقکنندههای لبه، با تطبیقهایی با طول صفر مواجه میشوید.
Совпадение нулевой длины
مسابقه ای است که شامل هیچ کاراکتری نمی شود. آنها می توانند در متن ورودی خالی، در ابتدای متن ورودی، بعد از آخرین نویسه متن ورودی، و بین هر دو کاراکتر متن ورودی رخ دهند. مسابقات با طول صفر به راحتی قابل تشخیص هستند زیرا همیشه در یک موقعیت شروع و پایان می یابند. مثال زیر را در نظر بگیرید:
java RegExDemo \b\b "Java is"
این مثال دو مرز کلمه متوالی را جستجو می کند و نتایج به صورت زیر است:
regex = \b\b
input = Java is
Found [] starting at 0 and ending at -1
Found [] starting at 4 and ending at 3
Found [] starting at 5 and ending at 4
Found [] starting at 7 and ending at 6
ما شاهد چندین مسابقه صفر در نتایج هستیم. موقعیتهای پایانی در اینجا یک کمتر از موقعیتهای شروع هستند، زیرا
RegexDemo
من در کد منبع در فهرست 1 مشخص کردم
end() – 1
.
کمیت کننده ها
کمیت ساز یک ساختار عبارت منظم است که به طور صریح یا ضمنی یک الگو را با یک مقدار عددی مرتبط می کند. این مقدار عددی تعیین می کند که چند بار الگو را جستجو کنیم. کمیت کننده ها به حریص، تنبل و فوق طمع تقسیم می شوند:
- کمیت حریص (
?
یا *
) +
برای یافتن طولانی ترین تطابق طراحی شده است. میتونم بپرسم X
؟ برای یافتن یک یا کمتر رخداد X
، X*
برای یافتن صفر یا چند رخداد X
، X+
برای یافتن یک یا چند رخداد X
، X{n}
برای یافتن n
رخدادها X
، X{n,}
یافتن حداقل (و احتمالاً بیشتر) n
رخدادها ، X
و X{n,m}
یافتن حداقل n
اما نه بیشتر m
رخدادها X
.
- کمیت تنبل (
??
یا *?
) +?
برای یافتن کوتاهترین تطابق طراحی شده است. شما می توانید تعیین کنید X??
که یک یا کمتر از موارد X
، X*
? برای یافتن صفر یا چند رخداد X
، X+?
برای یافتن یک یا چند رخداد X
، X{n}?
یافتن n
رخدادها X
، X{n,}?
یافتن حداقل (و احتمالاً بیشتر) n
رخدادها X
، و X{n,m}?
یافتن حداقل n
اما نه بیشتر از m
رخدادها X
.
- کمیت فوق حریص (
?+
یا *+
) ++
شبیه کمیتگر حریص است، با این تفاوت که کمیت کننده فوق حریص فقط یک بار تلاش می کند تا طولانی ترین تطابق را پیدا کند، در حالی که کمیت کننده حریص می تواند چندین بار تلاش کند. می توان آن را X?+
برای یافتن یک یا کمتر رخداد X
، X*+
برای یافتن صفر یا چند رخداد X
، X++
برای یافتن یک یا چند رخداد X
، X{n}+
برای یافتن n
رخدادهای X
، X{n,}+
برای یافتن حداقل (و احتمالاً بیشتر) n
رخدادها ، X
و X{n,m}+
یافتن حداقل n
، اما نه بیشتر از m
وقوع، تنظیم کرد. X
.
مثال زیر استفاده از کمیتگر حریص را نشان می دهد:
java RegexDemo .*ox "fox box pox"
در اینجا نتایج آمده است:
regex = .*ox
input = fox box pox
Found [fox box pox] starting at 0 and ending at 10
کمیت حریص (
.*
) طولانی ترین دنباله کاراکترها را پیدا می کند که به
ox
. کل متن ورودی را مصرف می کند و سپس به عقب برمی گردد تا متوجه شود که متن ورودی با این کاراکترها به پایان می رسد. اکنون کمیت کننده تنبل را در نظر بگیرید:
java RegexDemo .*?ox "fox box pox"
نتایج آن:
regex = .*?ox
input = fox box pox
Found [fox] starting at 0 and ending at 2
Found [ box] starting at 3 and ending at 6
Found [ pox] starting at 7 and ending at 10
کمیت کننده تنبل (
.*?
) کوتاه ترین دنباله کاراکترها را پیدا می کند که به
ox
. با یک رشته خالی شروع می شود و به تدریج کاراکترها را مصرف می کند تا زمانی که مطابقت پیدا کند. و سپس به کار ادامه می دهد تا متن ورودی تمام شود. در نهایت، بیایید به کمیت فوق العاده حریص نگاه کنیم:
java RegexDemo .*+ox "fox box pox"
و در اینجا نتایج آن است:
regex = .*+ox
input = fox box pox
کمیت فوق العاده حریص (
.*+
) منطبق را پیدا نمی کند زیرا تمام متن ورودی را مصرف می کند و چیزی برای مطابقت
ox
در انتهای عبارت منظم باقی نمانده است. بر خلاف کمیت حریص، کمیت کننده فوق حریص به عقب برنمی گردد.
طول صفر مطابقت دارد
گاهی اوقات هنگام کار با کمیت کننده ها با منطبقات با طول صفر مواجه می شوید. به عنوان مثال، استفاده از کمیتگر حریص زیر منجر به تطابق چندگانه صفر میشود:
java RegexDemo a? abaa
نتایج اجرای این مثال:
regex = a?
input = abaa
Found [a] starting at 0 and ending at 0
Found [] starting at 1 and ending at 0
Found [a] starting at 2 and ending at 2
Found [a] starting at 3 and ending at 3
Found [] starting at 4 and ending at 3
پنج مسابقه در نتایج اجرا وجود دارد. اگرچه اولین، سوم و چهارم کاملاً مورد انتظار هستند (آنها با موقعیت های سه حرف
a
در مطابقت دارند
abaa
)، دوم و پنجم ممکن است شما را شگفت زده کنند. به نظر می رسد که آنها نشان می دهند که چه چیزی با انتهای متن
a
مطابقت دارد ، اما در واقعیت اینطور نیست.
b
عبارت منظم در انتهای متن
a?
جستجو نمی کند .
b
حضور یا عدم حضور را جستجو می کند
a
. هنگامی که
a?
آن را پیدا نمی کند
a
، آن را به عنوان یک مطابقت با طول صفر گزارش می دهد.
عبارات پرچم تو در تو
تطبیقکنندگان برخی از فرضیات پیشفرض را ایجاد میکنند که هنگام کامپایل عبارت منظم در یک الگو، میتوان آنها را نادیده گرفت. در ادامه به این موضوع خواهیم پرداخت. یک عبارت منظم به شما امکان می دهد با استفاده از یک عبارت پرچم تو در تو، هر یک از پیش فرض ها را لغو کنید. این ساختار عبارت منظم به عنوان یک فراکاراکتر از پرانتز در اطراف یک متاکاراکتر علامت سوال (
?
) و به دنبال آن یک حرف لاتین کوچک مشخص می شود. کلاس
Pattern
عبارات پرچم تودرتو زیر را درک می کند:
(?i)
: تطبیق الگوی حساس به حروف بزرگ را فعال می کند. به عنوان مثال، هنگام استفاده از یک دستور، java RegexDemo (?i)tree Treehouse
دنباله کاراکترها Tree
با الگو مطابقت دارد tree
. پیش فرض جستجوی الگوی حساس به حروف بزرگ و کوچک است.
(?x)
: استفاده از نویسههای فضای خالی و کامنتهایی که با متاکاراکتر درون الگو شروع میشوند را امکانپذیر میکند #
. همسان هر دو را نادیده می گیرد. به عنوان مثال، برای java RegexDemo ".at(?x)#match hat, cat, and so on" matter
دنباله ای از کاراکترها mat
با الگوی مطابقت دارد .at
. بهطور پیشفرض، کاراکترها و کامنتهای فضای خالی مجاز نیستند و تطبیقدهنده آنها را بهعنوان کاراکترهایی درگیر در جستجو در نظر میگیرد.
(?s)
: حالت dotall را فعال می کند، که در آن متاکاراکتر نقطه، جداکننده خطوط را علاوه بر هر کاراکتر دیگری مطابقت می دهد. به عنوان مثال، دستور java RegexDemo (?s). \n
یک کاراکتر خط جدید را پیدا می کند. پیشفرض برعکس dotall است: هیچ جداکننده خط پیدا نمیشود. به عنوان مثال، دستور Java RegexDemo . \n
کاراکتر خط جدید را پیدا نمی کند.
(?m)
: حالت چند خطی را فعال می کند، جایی که ^
ابتدا و $
انتهای هر خط مطابقت دارد. به عنوان مثال، java RegexDemo "(?m)^abc$" abc\nabc
هر دو دنباله را در متن ورودی پیدا می کند abc
. به طور پیش فرض، حالت تک خطی استفاده می شود: با ^
ابتدای کل متن ورودی مطابقت دارد و با $
انتهای آن مطابقت دارد. برای مثال، java RegexDemo "^abc$" abc\nabc
پاسخی را برمیگرداند که هیچ منطبقی وجود ندارد.
(?u)
: تراز حروف حساس به یونیکد را فعال می کند. این پرچم، هنگامی که همراه با استفاده میشود (?i)
، امکان تطبیق الگوی حساس به حروف بزرگ را مطابق با استاندارد یونیکد فراهم میکند. تنظیمات پیشفرض این است که فقط نویسههای حساس به حروف بزرگ و US-ASCII را جستجو کنید.
(?d)
: حالت رشته به سبک یونیکس را فعال می کند، که در آن تطبیق دهنده متاکاراکترها را در متن .
و ^
فقط $
جداکننده خطوط را تشخیص می دهد \n
. حالت پیشفرض رشتهای به سبک غیر یونیکس است: تطبیقدهنده، در زمینه متاکاراکترهای بالا، تمام جداکنندههای خط را تشخیص میدهد.
عبارات پرچم تو در تو شبیه گروههای گرفته شده است، زیرا شخصیتهای آنها توسط فراکاراکترهای پرانتز احاطه شدهاند. برخلاف گروههای ضبطشده، عبارات پرچم تودرتو نمونهای از گروههای غیر گرفتهشده هستند، که یک ساختار عبارت منظم هستند که کاراکترهای متنی را نمیگیرند. آنها به عنوان دنباله ای از کاراکترها تعریف می شوند که با فراکاراکترهای پرانتز احاطه شده اند.
تعیین چند عبارت پرچم تو در تو |
می توان چند عبارت پرچم تو در تو را در یک عبارت منظم با قرار دادن آنها در کنار هم ( (?m)(?i)) ) یا قرار دادن حروفی که آنها را به صورت متوالی تعریف می کنند ( (?mi) ) مشخص کرد. |
نتیجه
همانطور که احتمالاً تا به حال متوجه شده اید، عبارات منظم بسیار مفید هستند و با تسلط بر ظرایف نحو آنها بسیار مفیدتر می شوند. تا اینجا شما را با اصول عبارات منظم و
Pattern
. در قسمت 2، نگاه عمیقتری به Regex API خواهیم داشت و روشهای
Pattern
,
Matcher
و را بررسی میکنیم
PatternSyntaxException
. همچنین دو برنامه کاربردی Regex API را به شما نشان خواهم داد که می توانید بلافاصله در برنامه های خود از آنها استفاده کنید.
عبارات با قاعده در جاوا، قسمت 3 عبارات با قاعده در جاوا، قسمت 4 عبارات با قاعده در جاوا، قسمت 5
GO TO FULL VERSION